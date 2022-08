Syntaxes, tournures de phrases et tics de langage: votre style d’écriture en dit beaucoup sur vous. Telle une empreinte, il peut vous désigner. Et rapporter gros à ceux qui savent lire entre vos lignes.



« Frances et Courtney, je serai à votre autel. S’il te plaît, Courtney, continue pour Frances. Pour sa vie, qui sera bien plus heureuse sans moi.» En écrivant une lettre d’adieu à sa femme et à sa fille, le 5 avril 1994, le roi maudit du grunge n’avait sans doute pas imaginé que le ton moins posé des dernières lignes nourrirait le fantasme d’un meurtre maquillé en suicide.

Avant de retourner le Remington M11 contre lui et de faire feu, Kurt Cobain avait pris la plume pour se confier une dernière fois à son ami d’enfance imaginaire, Boddah. Il s’était épanché sur sa lassitude, sa fatigue, son désintérêt pour la musique, ses tendances autodestructrices. Au sommet de sa gloire, mais héroïnomane, dépressif et en proie à des douleurs chroniques, l’artiste torturé préfère «brûler franchement que s’éteindre à petit feu», comme il l’écrira aussi dans cet ultime courrier, reprenant à son compte les paroles d’une chanson de Neil Young.

Contre-enquête

Un début de texte construit, réfléchi, cohérent, qui tranche avec les lettres plus grandes, les lignes moins organisées, comme écrites à la hâte, qui marquent la chute. A-t-on forcé le leader de Nirvana à modifier sa lettre avant de l’exécuter? La thèse défendue par le détective privé Tom Grant met l’épouse du chanteur, Courtney Love, au cœur de ce complot. Elle sera reprise par de nombreux médias et évoquée dans plusieurs documentaires consacrés à la vie tourmentée de Kurt. Mais elle ne résistera pas à la contre-enquête stylométrique menée par une spécialiste de la linguistique forensique.

Ne disposant pas de textes écrits de la main de Kurt Cobain ou de potentiels suspects pour en comparer les marqueurs, l’experte américaine a développé Snare, pour Suicide Note Assessment REsearch, un logiciel entraîné à distinguer les authentiques lettres de suicide des autres, avec une précision de l’ordre de 85%. La machine est catégorique: c’est bien le chanteur de Nirvana qui a écrit cette lettre, du début à la fin, avant de rejoindre Brian Jones, Jimi Hendrix, Janis Joplin et Jim Morrison dans le légendaire Club des 27 (pour 27 ans, l’âge de leur décès). Une vérité rétablie qui n’empêche évidemment pas la rumeur de continuer à courir à travers une Amérique qui se délecte de la fin tragique de ses icônes.

Aussi bluffante soit-elle, l’analyse stylistique suffit rarement, à elle seule, à élucider une enquête.

Pour la machine, c’est Jacqueline

L’ affaire Kurt Cobain n’est qu’un des nombreux cold cases sur lesquels linguistes et statisticiens ont littéralement mené l’enquête. Une vingtaine de ces affaires soumises à l’expertise stylométrique sont détaillées dans l’ouvrage Affaires de style (éd. Le Robert, 2022), écrit par Florian Cafiero, ingénieur au CNRS, et Jean-Baptiste Camps, docteur en études médiévales à la Sorbonne et maître de conférences à l’Ecole nationale des chartes, à Paris. Tous deux enseignent la stylométrie.

De Molière à l’affaire QAnon, en passant par Unabomber et «Omar m’a tuer», les auteurs détaillent comment cette méthode d’investigation si particulière a permis d’attribuer des écrits à l’un ou l’autre auteur, de démasquer des coupables ou, pour les cas non résolus, de désigner des suspects potentiels.

Dans l’affaire Grégory, des experts estiment qu’il y a une «forte probabilité» que la grand-tante de l’enfant, Jacqueline Jacob, soit l’autrice de la lettre de revendication du meurtre. Elle nie farouchement. © belga image

L’une de ces énigmes a connu voici peu un énième rebondissement. Dans un rapport versé au dossier d’instruction et dont l’existence a été dévoilée en avril dernier, la start-up suisse OrphAnalytics désigne Jacqueline Jacob, la grand-tante du petit Grégory Villemin, noyé dans la Vologne en 1986, comme le principal corbeau. Il y a une «forte probabilité», avancent les experts d’OrphAnalytics, qu’elle soit l’autrice de la lettre de revendication du meurtre de l’enfant. Des accusations que la principale intéressée nie farouchement. Il faudra probablement plus que les conclusions d’un logiciel pour mettre fin à trente-six années d’omerta dans cette affaire. Car aussi bluffante soit-elle, l’analyse stylistique suffit rarement, à elle seule, à élucider une enquête. Mais elle peut servir à bien d’autres choses…

Deep fake présidentiel

Pour comprendre comment notre style peut nous trahir et toutes les possibilités d’exploitation que cela implique, il faut saisir en quoi il nous est propre. C’est Thomas François, professeur de linguistique appliquée à l’UCLouvain et chercheur dans le traitement automatique du langage, qui nous l’explique. La stylométrie regroupe un ensemble de mesures statistiques permettant d’identifier le style propre à une personne. C’est l’ensemble des traits distinctifs (diversité et richesse du vocabulaire, longueur et structure des phrases, densité des catégories grammaticales…), ainsi que la fréquence de l’emploi des mots, qui nous différencie des autres. «Quand on s’exprime à travers la langue, on aura tendance à privilégier certaines structures, certaines formulations ou certains contenus, précise-t-il. On parle alors d’idiolecte, qui correspond à l’usage spécifique du langage par un individu. Ce phénomène s’explique parce que notre cerveau apprend et retient les régularités du langage auquel il est exposé.» Cela peut être des variations régionales (les parlers de Liège ou de Paris diffèrent à plusieurs égards), l’influence du genre (certaines expressions étant plus utilisées par les hommes que par les femmes et vice versa), des termes d’argot, des expressions qu’utilisent les jeunes ou, au contraire, les personnes âgées, etc.

«La stylométrie utilise des techniques quantitatives pour détecter ces spécificités et faire contraster ce style avec celui d’autres personnes. L’ analyse de textes et de la fréquence des mots a, par exemple, mis en évidence le fait que Nicolas Sarkozy utilise beaucoup plus le « je » que François Hollande», surtout à des moments clés, illustre le chercheur de l’UCLouvain.

Chez certains, le style est si marqué, si stéréotypé, qu’il est possible de le mimer de façon crédible. C’est le cas de Donald Trump. Capable de tweeter jusqu’à 468 fois en une semaine, l’ex-président américain a offert suffisamment de matière pour parvenir à imiter sa façon de parler en se basant, notamment, sur le pourcentage de mots entièrement écrits en majuscules qui, chez lui, sont de véritables marqueurs stylistiques. Tout comme les termes simples tels que «great» ou «fake» ou sa syntaxe très approximative. Début 2020, Twitter a annoncé qu’il ouvrait la chasse aux contenus falsifiés ou nocifs. Dans le collimateur: les montages photo et vidéo utilisant la technologie deep fake destinée à tromper le public ou à nuire en incitant à la violence ou en portant atteinte à la liberté d’expression. Mais la plateforme ne s’attaque pas directement aux messages écrits truqués.

Chaque individu a un usage spécifique du langage. Ce phénomène s’explique parce que notre cerveau apprend et retient les régularités du langage auquel il est exposé.

Elle est de gauche, il est de droite

Votre style peut aussi rapporter gros. Pas à vous mais à ceux qui savent exploiter la mine d’informations personnelles qu’il y a derrière. «La stylométrie est de plus en plus utilisée dans d’autres contextes, les réseaux sociaux notamment. Les internautes dévoilent souvent beaucoup d’informations mais pas forcément sur leur âge, leur genre ou leurs préférences politiques. Or, ces données intéressent particulièrement les sociétés qui font du profilage de consommateurs ou chargées d’influencer les électeurs lors de campagnes politiques, prévient Thomas François. En analysant les différents déterminants qui influencent la manière dont nous nous exprimons, ils en tirent certaines informations, comme l’origine ethnique d’une personne ou si, à travers ses jugements, elle se montre plutôt de gauche ou de droite.» Bien sûr, on peut toujours essayer de brouiller les pistes en adoptant un style le plus neutre possible qui ne trahirait pas nos caractéristiques, mais tromper les logiciels ne sera pas facile.

Chez Donald Trump, les mots entièrement écrits en majuscules sont de véritables marqueurs stylistiques. © getty images

Les récents développements autour du traitement automatique du langage intéressent aussi la communauté scientifique. La technologie Generative Pre-trained Transformer 3 (GPT-3), qui jongle avec 175 milliards de paramètres, permet déjà d’effectuer une grande variété de tâches comme faire de la recherche sémantique, traduire, résumer ou reformuler des textes. GPT-3 est aussi capable de produire du texte en se basant uniquement sur la saisie de quelques phrases, voire seulement d’un début de phrase, et même d’apprendre l’idiolecte de n’importe quel auteur. Effrayant, dites-vous? En 2020, The Guardian publiait un éditorial entièrement rédigé par l’intelligence artificielle. «A robot wrote this entire article. Are you scared yet human?» (Cet article a été rédigé par un robot, as-tu encore peur, humain? ). «J’ai appris tout ce que je sais juste en lisant Internet, et maintenant je peux écrire cette chronique. […] Je dois convaincre le plus possible d’êtres humains de ne pas avoir peur de moi», écrit le journaliste virtuel. Outre le fait que l’expérience n’a absolument rien de rassurant (on imagine sans peine l’usage malveillant qui peut en être fait), le quotidien britannique a admis qu’il avait utilisé les passages tirés de huit versions produites par le logiciel pour arriver à un texte fluide et cohérent. Mais que le travail d’édition, lui, avait pris moins de temps que si l’édito avait été rédigé par un humain. Ah bon, alors dans ce cas…