La biométrie vocale, ou l'usage d'une empreinte de voix à des fins d'authentification, est un marché en or. Cette technologie émergente est porteuse de promesses indéniables, mais elle charrie aussi son lot de risques et de dérives éthiques.

La biométrie vocale est une technologie faisant appel à l'intelligence artificielle (IA), selon laquelle chaque voix est unique et peut donc être utilisée en guise de mot de passe pour accéder à un compte (messagerie ou compte bancaire, par exemple), ou pour sécuriser un paiement par Internet. Pour l'usager, ce système, développé depuis les années 2010, est rapide, simple et confortable. Il fait passer les mots de passe classiques (mis au point en 1964) pour des dinosaures de la sécurité. Aujourd'hui, d'après les leaders mondiaux de la biométrie vocale, cette technologie serait la plus sûre face aux attaques et aux piratages. Afin de maintenir la confiance des utilisateurs, les établissements bancaires, les entreprises et les institutions se tournent massivement vers la biométrie vocale, estimée capable de résister à 90% des problèmes de sécurité. Une étude américaine parue en août dernier, Future of Biometrics & Human Identification Industry (BCC Research), annonce que le marché global de la technologie biométrique frôlera les 72 milliards de dollars en 2024. Jean-François Bonastre, professeur au Labo d'informatique d'Avignon, spécialiste du traitement de la parole et expert auprès des tribunaux en matière d'authentification vocale, estime que la "biométrie vocale" n'est tout simplement pas une "biométrie" : "Une biométrie (iris, empreinte digitale, etc.) ne peut pas varier, alors que la voix, elle, est dynamique, elle est modulée par notre état émotionnel, notre niveau de stress, notre âge, notre santé, etc." Pourtant, sur le site Web de la société américaine Nuance, leader sur le marché des solutions vocales cognitives, on peut lire : "Votre voix est aussi unique que vos empreintes digitales." L'ambiguïté du terme français vient du fait qu'il ne fait pas le distinguo avec le terme anglais "biometrics" qui désigne pêle-mêle toutes les caractéristiques humaines, même comportementales, pouvant être utilisées pour définir un être humain. Terme qui sera utilisé, en 2011, par le professeur américain Anil Jain, dans sa fameuse Introduction to biometrics. Les fraudeurs réussissent déjà à casser les systèmes de sécurité vocaux, en créant des "clés vocales de synthèse". Grâce à des logiciels, ils fabriquent des enregistrements de voix synthétiques qu'ils utilisent à la chaîne, pour s'introduire dans des systèmes. Si la société Nuance explique, sur son site Web, que la biométrie peut distinguer avec précision un enregistrement et une voix en direct dans plus de 99 % des cas, on comprend qu'il existe 1 % de risques que l'IA ne parvienne pas à faire ce distinguo. Une authentification à plusieurs facteurs (déjà souvent mise en oeuvre) pourrait, certes, renforcer les services usant de biométrie vocale. Reste que, en 2017, Dan Simmons, un journaliste de la BBC, a mis en échec le système soi-disant infaillible d'authentification vocale de la banque HSBC. Son frère (un faux jumeau) a réussi à passer le test de reconnaissance vocale, à sa place, en imitant sa voix et en leurrant l'IA. Il ne s'agissait pourtant pas là d'un enregistrement, mais bien d'une voix "en direct". Et si des questions personnelles lui avaient été posées, la proximité avec son frère l'aurait probablement aidé à y répondre. La biométrie vocale, technologie émergente en plein essor, pourrait être utilisée dans le domaine médical afin de valider, via la signature vocale, l'identité d'un patient demandant une ordonnance, par téléphone, ou un autre, souffrant de troubles neurologiques qui lui font oublier son identité. La start-up française Semaxone travaille actuellement sur le suivi de patients asymptomatiques, testés positifs au coronavirus : au téléphone, leur voix pourrait révéler leur taux d'oxygénation et ainsi permettre d'évaluer le développement de la maladie. Des laboratoires planchent aussi sur la possibilité de reconnaître le taux d'alcoolémie, dans la voix, afin de mettre au point des voitures qui ne démarrent pas si le conducteur est ivre ou sous l'emprise de stupéfiants. Aimm est une application de rencontres en ligne américaine, née en 2018, ayant recours à l'IA et à la biométrie vocale. Avant de pouvoir rencontrer l'élu(e), un assistant vocal assomme le prétendant de questions pendant une semaine. Ensuite, en fonction des réponses, la machine va choisir un partenaire à qui il sera invité à envoyer des mémos vocaux. La voix pourrait aussi contribuer à décrocher le job rêvé. Ou pas. En effet, de plus en plus de sociétés et de cabinets de recrutement ont recours à la biométrie vocale pour effectuer leurs embauches. Sur quels critères une personne est-elle recalée ? Parce que sa voix indique qu'elle est fumeuse ? A cause de son accent, de son origine sociale ou de son sexe ? Prudence : " Les systèmes et algorithmes actuels sont principalement basés sur des échantillons de voix issus d'hommes blancs ", précise le professeur Bonastre. " Evidemment, par essence, ces systèmes sont biaisés : la machine, l'intelligence artificielle, aura tendance à sélectionner des voix qui ressemblent le plus à ce qu'elle connaît le mieux. " Malgré tout, il existe aujourd'hui un engouement sociétal massif pour cette technologie contestable : serré par la nécessité de gagner du temps, même un peu, l'humain pressé et fatigué de 2021 veut aller vite. De plus, il a en lui l'impérieuse exigence du confort. Les mots de passe, pour se connecter ? Difficile de s'en souvenir. Ainsi, près de sept Belges sur dix, interrogés par l'institut de connaissance belge indépendant Vias, indiquent qu'ils trouvent le recours à la biométrie vocale "plutôt acceptable" voire "tout à fait acceptable". Et près de six Belges sur dix sont prêts à sacrifier une partie de leur vie privée sur l'autel de la sécurité.Peu importe que nous soyons potentiellement sans arrêt sur écoute (via les enceintes connectées, les assistants vocaux des gsm, ou encore via les détecteurs de fumée dotés d'un micro, commercialisés par Google) : le confort de pouvoir tamiser la lumière, par une simple commande vocale, de consulter son compte bancaire ou de trouver un emploi sur Internet semble un argument plus puissant que la sécurité. Début 2020, une étude réalisée par des chercheurs américains de l'université de Northeastern révélait que les assistants vocaux comme Alexa (Amazon), Cubic, Siri (Apple), Google Home se mettent en marche, à notre insu, jusqu'à dix-neuf fois par jour. Que font les entreprises avec ces enregistrements passifs ? Officiellement : rien, si ce n'est améliorer leur système interne. Pourtant, en 2017, dans une affaire de meurtre très médiatisée, la justice américaine a réclamé à Amazon les enregistrements réalisés par Alexa dans le désormais fameux "Amazon Echo Case". Lesdits enregistrements ont été donnés et utilisés. Si l'affaire semble impossible chez nous, en raison du RGDP (Règlement général sur la protection des données) et de la CEDH (Convention européenne des droits de l'homme), elle pourrait créer un précédent. La toute nouvelle application Overdub est capable de créer un clone hyperréaliste de n'importe quelle voix, grâce à un enregistrement vocal de dix minutes. Concrètement, il est donc possible de faire dire absolument n'importe quoi à n'importe quelle voix qui sera identifiée par le public comme authentique : la vôtre, celle d'un journaliste ou d'une personnalité politique. Alors que de plus en plus de personnes s'informent via les réseaux sociaux qui proposent des vidéos (Youtube, TikTok ou encore Facebook), il devient impossible de savoir avec certitude si ce qui est visionné et entendu est authentique ou révèle du deepfake. Les chercheurs du Crim (Centre de recherches informatiques de Montréal) estiment que l'empreinte vocale d'une personne est à ce point unique qu'il n'est pas impossible de penser qu'elle soit incorporée dans des passeports biométriques. Peut-on imaginer qu'un pays refuserait l'accès d'une personne en fonction de son accent ou de la langue maternelle de ses parents ? La voix dévoile en effet l'origine sociale, ethnique, géographique, l'état de stress, l'état de santé mentale ou de santé tout court, mais aussi le niveau d'éducation. La voix permet aussi de préciser quelle est la langue maternelle du locuteur, ou encore s'il parle ou non d'autres langues. De quoi - techniquement - susciter dérives et discriminations. En 1993, la Suède a utilisé la voix des demandeurs d'asile pour déterminer leur pays d'origine. L'Australie a fait la même chose au début des années 2000. Aujourd'hui, les polices scientifiques européennes ont de plus en plus recours à la biométrie vocale, afin de les aider dans leurs enquêtes. S'il n'est plus question de vouloir déterminer si une voix possède des caractéristiques propres aux criminels, rappelons qu'au début du XXe siècle, des commissariats européens et américains gardaient des échantillons vocaux des personnes arrêtées, dans l'espoir d'en dégager un "profil criminel vocal". Une pratique qui s'apparente à la physiognomonie (une technique rendue célèbre par le criminologue italien Cesare Lombroso, en 1887, selon lequel l'apparence physique d'une personne donne des indications sur sa personnalité).Martial Guédron, professeur d'histoire de l'art de l'université de Strasbourg, rappelle que, dès le début du XIXe siècle, le médecin idéologue Moreau de la Sarthe proposait une "physiognomonie de la voix et de la parole". La parole est d'argent mais, parfois, le silence est d'or...