Bientôt un " clone parlant " pour apprendre à (re)parler. © Colin Anderson/Getty Images

Bientôt un « clone parlant » pour apprendre à (re)parler ?

Rosanne Mathot
Rosanne Mathot Journaliste

Une tête virtuelle qui parle comme vous, mais en mieux ; un clone en 3D qui reproduit à l’identique le moindre de vos mouvements phonatoires : amusant, mais pour quoi faire ? Pour apprendre à parler une nouvelle langue. Ou encore pour apprendre à (re)parler, en imitant son clone.

Ainsi, pour fignoler une rééducation orthophonique ou se familiariser la bouche avec les sons inédits et exotiques d’une langue étrangère, rien de tel que de voir, de ses yeux voir, là où se pose exactement votre langue, par rapport à votre palais et à vos dents. Pour mieux parler, vous allez donc suivre la danse de votre langue dans votre bouche et vous comprendrez d’emblée pourquoi le son pitoyable que vous venez d’émettre n’est pas la sublime  » jota  » espagnole que vous espériez.

Le  » clone parlant  » est la toute récente innovation du Gipsa-lab (une unité mixte du CNRS et de l’université de Grenoble) réalisée en collaboration avec l’Inria Grenoble Rhône-Alpes. Leurs travaux sont publiés dans la revue Speech Communication d’octobre dernier. Comment ça fonctionne ? Une sonde échographique, placée sous la mâchoire, va d’abord capturer les mouvements de la langue. Ensuite, ces mouvements seront traités par un algorithme d’apprentissage automatique (machine learning) qui permet de piloter une  » tête parlante articulatoire « .

Vous voilà donc face à l’animation en 3D et en temps réel de votre appareil phonatoire. Mais pas seulement. Car, en plus de vous donner une vue plongeante sur l’intérieur de votre bouche et sur votre larynx, le système dote également votre avatar de lèvres. Au moment de la phonation (l’action de parler), les lèvres effectuent en effet de très nombreux mouvements, qui jouent – eux aussi – sur la taille du résonateur que constitue la bouche. Les lèvres participent donc activement au jeu de la production sonore.

La force de ce nouveau système repose sur son algorithme d’apprentissage automatique, sur lequel les chercheurs français travaillent depuis plusieurs années. Celui-ci permet de traiter les mouvements articulatoires que le locuteur ne maîtrise pas encore, quand il démarre son studieux tête-à-tête avec son avatar.

Le système exploite un modèle probabiliste construit à partir d’une immense base de données articulatoires acquises sur un locuteur dit  » expert « , capable de prononcer parfaitement l’ensemble des sons d’une ou de plusieurs langues. Ce modèle est ensuite automatiquement adapté à la morphologie de chaque nouvel utilisateur, lors d’une courte phase d’étalonnage du système, au cours de laquelle le nouvel utilisateur doit prononcer quelques phrases.

Actuellement testé en milieu clinique, sur des patients ayant subi une opération de la langue, le système devrait encore s’améliorer bientôt. Les chercheurs planchent déjà sur un moyen de transformer directement la voix en animation 3D, sans avoir besoin de passer par la case  » échographie « .

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici

Contenu partenaire