La maison des premiers mots

La rédaction du Vif

21-05-2009, 22:00 Mise à jour le: 08-12-2020, 07:20

Comment naît la parole ? Pour le comprendre, un couple de chercheurs américains vit depuis trois ans en direct devant micros et caméras. Objectif : enregistrer en intégralité l’apprentissage du langage par leur fils. Quand la science rejoint la télé-réalité.

Les Roy habitent une petite maison jaune dans une rue tranquille d’un quartier résidentiel de Boston. Deux voitures garées dans l’allée, un carré de gazon, un intérieur meublé Ikea : ce jeune couple typique de la moyenne bourgeoisie américaine élève ici ses deux enfants, une petite fille de 2 ans et un garçon de 3. Une famille apparemment banale et sans histoires, mais qui vit pourtant sous haute surveillance. La maison est truffée de micros et de caméras, qui, depuis trente-six mois, enregistrent en permanence la vie quotidienne du foyer. » Au début, c’était un peu déroutant, mais aujourd’hui on n’y pense même plus « , constate le père, Deb Roy, chercheur au Massachusetts Institute of Technology (MIT), qui a lui-même conçu ce dispositif de télé-réalité extrême, destiné à immortaliser chaque instant de l’existence de son fils, Dwayne, depuis que celui-ci est né, en mai 2006.

Cet épisode de Loft Story ne sera jamais diffusé à la télévision. Il s’agit en fait d’une très sérieuse expérience scientifique menée par le Media Lab, le laboratoire des technologies numériques du MIT, où Deb Roy dirige un département spécialisé dans la reconnaissance vocale et l’analyse informatique du langage. Le chercheur apprend à parler à des robots et s’intéresse pour cela au processus d’apprentissage de la parole chez les humains. Afin de s’en inspirer pour permettre aux machines d’assimiler spontanément le sens de mots qui n’ont pas été programmés dans leur mémoire. Mais comment le petit d’homme acquiert-il cette capacité quasi miraculeuse ? Les psychologues et les linguistes tentent de répondre à cette question en observant les interactions des petits enfants avec leurs parents, le plus souvent en laboratoire. Depuis quelques années, certains spécialistes jugent ces méthodes déconnectées du monde réel et préconisent d’étudier l’enfant dans son milieu naturel, à la maison. Certains ont entrepris d’enregistrer en vidéo des séquences de la vie familiale, mais ces expériences sont limitées dans le temps et manquent de précision. Pourquoi ne pas tenter de filmer intégralement les premières années de la vie d’un bébé, de capter ses premiers gazouillis et de suivre jour après jour l’évolution de son vocabulaire ? Deb Roy s’est mis en tête de réaliser ce projet, qu’il a baptisé » Speechome « , la parole à la maison, ou la maison de la parole. » L’idée m’est venue le jour où j’ai réalisé que le robot sur lequel je travaillais était incapable de distinguer une balle de n’importe quel objet rond, alors qu’un bébé de quelques mois fait déjà la différence, explique-t-il. Je me suis dit qu’il fallait revenir à la base, c’est-à-dire à la façon dont l’enfant forge lui-même les concepts en interagissant avec son environnement, ses parents et les autres personnes qui l’entourent. » Il s’agissait d’observer l’environnement physique et social qui conduit le bébé à apprendre à parler en enregistrant heure par heure et jour après jour la progression de son apprentissage, afin de constituer une banque de données qui puisse être mise à disposition de tous les spécialistes qui travaillent sur le sujet. Un projet colossal, ne serait-ce que par la durée et la quantité de matériel audiovisuel accumulée. » C’est un peu l’équivalent pour les linguistes du décryptage du génome humain réalisé par les biologistes, commente fièrement le chercheur. Ce travail devrait permettre de développer des robots qui pourront apprendre à parler naturellement, mais aussi de définir de meilleures stratégies pour diagnostiquer et traiter les troubles du langage. »

En 2004, Deb Roy obtient un financement de 15 000 dollars pour une étude de faisabilité de Speechome. Mais il se heurte vite à une difficulté : comment trouver une famille qui accepte de vivre pendant trois ans dans un bocal transparent ? Quelques mois plus tard, sa femme, Patel, est enceinteà Elle aussi s’intéresse au langage (elle est professeur d’orthophonie) et n’oppose pas de veto quand son mari suggère timidement l’idée de prendre leur enfant comme cobaye. Après de longues discussions, le couple finit par arrêter sa décision, assortie par la future mère d’une série de conditions concernant, notamment, le respect de leur vie privée. L’enfant restera anonyme, désigné sous le prénom fictif de Dwayne dans les articles et les documents du laboratoire, et un dispositif sera prévu pour couper l’enregistrement, si nécessaireà

Quelques semaines avant l’accouchement, en juillet 2005, le chercheur installe 11 caméras et 14 microphones, dissimulés dans les plafonds et les murs de toutes les pièces, sauf aux toilettes. Le tout relié par 1 kilomètre de câbles à une batterie d’ordinateurs empilés dans la cave et chargés de stocker les images et les sons sur des disques durs. Répartis dans toute la maison, des interrupteurs permettent comme prévu d’occulter les objectifs pour préserver l’intimité du couple, par exemple quand des amis viennent dîner à la maison ou quand l’un des deux parents souhaite avoir une conversation privée. Contrairement aux émissions de télé-réalité, les disputes sur les sujets qui fâchent, comme l’argent, la politique ou le sexe, sont bannies du programme. » Au début, nous avions souvent tendance à pousser ce que nous appelons le « bouton ooops », raconte Deb Roy, mais nous avons fini par en faire un usage très modéré. De plus, l’enregistrement est systématiquement coupé dès que Dwayne est couché. «

A raison de dix heures par jour en moyenne, le temps d’éveil de l’enfant, et compte tenu du nombre de caméras et de micros, l’équipe collecte chaque mois une quantité de données colossale, équivalente à plusieurs centaines de DVD. Après 37 mois d’expérience, ce ne sont pas moins de 90 000 heures de vidéo et 140 000 heures de son qui ont été stockées sur les ordinateurs du Massachusetts Institute of Technology.

» La phase d’enregistrement de Speechome est maintenant terminée, mais l’exploitation des résultats prendra probablement des années « , explique Deb Roy dans son bureau au Media Lab, un centre de recherche interdisciplinaire unique au monde, où informaticiens, ingénieurs, biologistes et même artistes travaillent en toute liberté à imaginer les technologies de demain. On y développe aussi bien l’ordinateur à 100 dollars destiné au tiers-monde que des voitures électriques empilables, des prothèses robotisées pour les amputés ou des instruments de musique intelligents. Deb, directeur du département des » machines cognitives « , en profite pour présenter au visiteur Ripley, un » robot conversationnel » sur lequel il travaille depuis des années. Constitué d’un bras articulé muni de deux caméras vidéo et d’un cerveau informatique, l’engin peut reconnaître son environnement et comprendre les ordres donnés en langage naturel. » Donne-moi l’objet vert sur la droite « , demande le chercheur ; » OK « , répond la machine en saisissant délicatement le gobelet de la bonne couleur posé sur la table entre une balle jaune et une pomme rouge. Ripley a été conçu pour apprendre les mots en interagissant avec les humains : il ne se contente pas d’assimiler la forme d’un objet avec son nom, mais il associe également les propriétés physiques ou symboliques : il connaît le poids approximatif d’une pomme, sait qu’elle peut se manger, rouler comme une balle et prendre des couleurs différentes.

Mais, pour l’heure, la priorité du chercheur et de son équipe consiste à peaufiner le logiciel informatique qu’ils ont élaboré spécialement pour décrypter la montagne de données audiovisuelles accumulées par l’expérience. Un véritable tour de force. Baptisé » Total Recall « , le logiciel se présente comme une sorte de programme de montage vidéo, sur lequel les images et les sons apparaissent sous forme de bande défilant sur l’écran. Il permet de retranscrire les conversations qui se déroulent dans la maison, mais aussi d’identifier les objets, comme les jouets utilisés par l’enfant, ainsi que les personnes, dont la direction du regard est matérialisée par des flèches à l’écran. On peut ainsi visualiser les déplacements de Dwayne dans le salon au cours d’un après-midi – un fatras de lignes et de zigzags autour de la table basse du salon et du coffre à jouets – et compter par exemple le nombre de fois où il a saisi la balle verte. Chaque pièce de la maison est divisée en sections (évier, divan, table basse, frigo) autour desquelles l’ordinateur capte des fragments de comportements associés à des activités précises, comme » faire la vaisselle » ou » préparer le café « . Total Recall comporte également une fonction de repérage des mouvements consistant à empiler les images les unes au-dessus des autres en ne laissant apparentes que les parties mobiles : » On peut ainsi repérer les actions qui se déroulent sans avoir à visionner la vidéo « , explique Deb Roy. Les technologies de recherche multimédia développées pour ce projet intéressent déjà les chaînes de télévision, qui ont besoin d’indexer le contenu de leurs programmes, mais aussi les spécialistes de la sécurité ou du renseignement. Car elles donnent, par exemple, la possibilité d’analyser automatiquement les images de caméras de télésurveillance ou les flux de messages échangés sur Internet.

Grâce à Total Recall, les chercheurs du MIT ont pu reconstituer l’historique de l’acquisition de chaque mot appris par Dwayne, à commen-cer par le premier, bath ( » bain « ), prononcé à l’âge de 11 mois. Ils ont ainsi mis bout à bout une série de séquences très courtes au cours desquelles le petit garçon dit water ( » eau « ), qu’il commence d’abord par articuler » baba » en montrant un verre sur la table, avant de prononcer enfin » water « . Capté sur plusieurs semaines, l’accéléré est saisissant : » Baba. Ba-ba. Baba. Wadeu. Baba. Baba. Wader. Baba. Wadeu. Baba. Water. Baba. Water. Water. Waterà «

Mais à quoi va donc servir cet amoncellement de données ? » L’entreprise n’aurait aucun sens si elle se limitait à un seul cas, explique Deb Roy. L’analyse de l’apprentissage de Dwayne va servir de point de comparaison pour étudier les problèmes de langage chez les autres enfants, en particulier ceux présentant un risque d’autisme, qui pourront être ainsi repérés de façon plus précoce qu’aujourd’hui. » L’équipe du projet Speechome a mis au point des lampes de salon dans lesquelles sont intégrés des caméras et des micros et qui seront prochainement installées dans les foyers d’enfants à risque d’autisme. Des discussions sont également en cours avec un industriel pour commercialiser ces » lampadaires- mouchards » dans le grand public. Pour les amateurs de télé-réalité familiale ou les parents obsédés par l’idée d’immortaliser les premières vocalises de leur bébéà

G. C.

Gilbert Charles

Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici