Techno

Quand les IA génératives sapent leur modèle en siphonnant le Web: «Ce serait le serpent qui se mord la queue»

Christophe Leroy Journaliste au Vif

Journaliste au Vif 13:29 7 min. de lecture

L’essor des IA génératives bouleverse l’équilibre du Web, jusqu’à menacer la survie de ceux qui les alimentent. Mais aussi, potentiellement, leur propre modèle.

En à peine trois ans, le Web a radicalement changé. Là où les smartphones en avaient élargi l’usage dès 2007, les IA génératives telles que ChatGPT (OpenAI), Gemini (Google) ou Copilot (Microsoft) en ont redéfini les règles. Leur irrésistible envol a renforcé la logique du «zéro click». Désormais, plus de 60% des requêtes sur un moteur de recherche n’engendrent aucune interaction avec les sites référencés, contre 54% en 2017, selon plusieurs estimations. En cause: les extraits optimisés de contenu, les aperçus générés par l’IA de Google (appelés SGE, pour Search Generative Experience) et les échanges avec les agents conversationnels, supplantant la recherche classique. A elle seule, la fonction SGE, lancée voici deux ans, bouscule les bonnes pratiques de référencement des sites Web. Une étude publiée en 2024 par la société de logiciels Authoritas démontre que 94% des liens intégrés dans la fonction SGE de Google diffèrent de ceux apparaissant en premier dans une recherche classique.

Médias, blogs, forums, plateformes de savoir collaboratif… D’innombrables acteurs bien ancrés sur le Web constatent une diminution du trafic sur leur site Internet, en raison du règne croissant du «zéro click». Un défi économique de taille, à l’heure où la réputation, et surtout les recettes, se constituent en bonne partie grâce à la visibilité en ligne. Il y a quelques années, les grands réseaux sociaux avaient déjà remodelé leurs algorithmes afin de retenir le temps de cerveau de leurs utilisateurs sur leurs propres plateformes, en pénalisant par exemple les contenus renvoyant vers des sites externes. A leur tour, les IA génératives se démènent pour prolonger les échanges. Depuis plusieurs mois, ChatGPT relance systématiquement ses interlocuteurs à la fin de chaque réponse: «Souhaites-tu que je fasse une synthèse plus structurée ou que j’approfondisse un point en particulier?»

«Une baisse du trafic sur Wikipédia pourrait entraîner une diminution du nombre de bénévoles.»

La Wikimedia Foundation

Baisse de trafic et surcharge de «bots»

En avril dernier, la société GWI annonçait avec fracas que ChatGPT avait, pour la première fois, dépassé Wikipédia en nombre de visites aux Etats-Unis. L’estimation était bancale: publiée sur le réseau social Reddit, elle ne se basait que sur un sondage, qui a d’ailleurs disparu depuis lors. Il est vrai, toutefois, que le géant du savoir collaboratif s’inquiète du phagocytage de ChatGPT. Contactée, la Wikimedia Foundation renseigne une série d’articles publiés par ses propres experts. «Nous constatons une baisse du nombre de pages vues par des humains sur Wikipédia ces derniers mois, soit une diminution d’environ 8% par rapport aux mêmes mois de 2024, écrit l’un d’eux. Les moteurs de recherche utilisent de plus en plus l’IA générative pour fournir directement des réponses aux internautes, plutôt que de les rediriger vers des sites comme le nôtre. Les jeunes générations, elles, privilégient les plateformes de vidéos sociales au Web ouvert pour s’informer.» A cela s’ajoutent les envahissantes requêtes de robots d’exploration (crawlers), dont l’inlassable mission d’épluchage des pages, au profit notamment des grands modèles de langage (LLM), engendre une charge importante sur l’infrastructure des sites Web.

Le constat vaut pour bien d’autres acteurs. Mais le cas de Wikipédia est éloquent: alimentée par plus de 300.000 contributeurs chaque mois, la logique bénévole de l’encyclopédie en ligne pourrait, en théorie, la préserver des bouleversements économiques causés par les IA génératives. La Wikimedia Foundation craint pourtant une autre perspective tout aussi néfaste: la récession du savoir collaboratif. «Une baisse du trafic sur Wikipédia pourrait entraîner une diminution du nombre de bénévoles contribuant à l’enrichissement du contenu, ainsi qu’une diminution des dons individuels soutenant ce travail», avertit-elle. Ce n’est pas encore le cas aujourd’hui. Mais pourquoi consacrer autant d’énergie à alimenter des contenus s’ils sont de moins en moins lus? Pourquoi poser une question sur un forum –et pourquoi prendre le temps d’y répondre– quand ChatGPT délivre une réponse instantanée, construite à partir de (presque) tout ce qui existe sur le Web?

Les signaux sont contrastés. Au carrefour d’un forum et d’un agrégateur de contenu, une plateforme comme Reddit ne cesse de battre des records en capitalisation boursière, elle qui a frôlé la barre des 50 milliards de dollars en septembre dernier. Depuis le lancement de ChatGPT, l’observatoire statistique français Hexagone constate inversement l’érosion du trafic Internet sur des sites grand public et «utilitaires» tels que Wikipédia, Marmiton (recettes de cuisine), Doctissimo (santé), Conjugaison, Reverso et Linguee (traduction). L’essorage ne fait sans doute que commencer.

Les IA génératives affectent également des écosystèmes plus pointus. «Dans le domaine de l’informatique, on peut citer l’exemple du forum Stack Overflow, mentionne Pierre Dupont, professeur à l’Ecole polytechnique de l’UCLouvain et fin connaisseur des grands modèles de langage. Plutôt que d’y demander de l’aide à sa vaste communauté d’experts, de nombreux utilisateurs préfèrent désormais interroger ChatGPT, qui s’est notamment nourri de cette plateforme durant son apprentissage. Mais la revue Communication of the ACM a constaté un autre problème: la qualité des réponses sur Stack Overflow a elle aussi tendance à diminuer avec le temps, à cause d’utilisateurs s’appropriant, pour être bien notés par leurs pairs, une solution qu’ils ont en réalité trouvée sur ChatGPT.»

Les IA génératives se condamnent-elles?

Les IA génératives bénéficieront-elles nécessairement de ce grand big bang du Web sur le long terme? C’est là que tout se complique. Les connaissances d’un modèle comme GPT 3.5, celui qui fut lancé en novembre 2022, émanent d’un gigantesque corpus de savoir humain, restitué et mis en forme sur la Toile. «Cette version a, semble-t-il, été entraînée sur environ 300 milliards de tokens, à savoir des mots ou parties de mots, rappelle Pierre Dupont. Environ 60% de son corpus de départ provient de Common Crawl, une organisation à but non lucratif qui a entrepris de dresser un inventaire de tout ce que l’on peut trouver sur le Web grâce à des bots. A titre de comparaison, Wikipédia n’a procuré qu’environ 1% des informations collectées pour l’apprentissage de GPT.»

En sapant, voire en éradiquant la production de nouveaux savoirs humains sur de nombreux pans du Web dont elles-mêmes se nourrissent, les IA génératives pourraient condamner leur propre robustesse. Dans un article publié en 2024 dans la revue Nature, des chercheurs ont analysé les conséquences d’un scénario où les IA génératives apprendraient à partir de contenus en ligne qu’elles ont elles-mêmes produits en grande partie. Leur conclusion: «L’entraînement sur des échantillons provenant d’un autre modèle génératif peut induire un décalage de distribution qui, à terme, provoque l’effondrement du modèle. Ce dernier, à son tour, perçoit mal la tâche d’apprentissage sous-jacente. Pour assurer la continuité de l’apprentissage sur le long terme, il est essentiel de préserver l’accès à la source de données originale et de garantir la disponibilité de données supplémentaires non générées par les LLM.»

Ce qu’en disent les IA

Le Vif a posé la question suivante à trois IA de référence: «L’essor d’IA génératives grand public tel que toi (et d’autres modèles concurrents) entraîne une baisse significative du trafic de certains sites ou sources majeurs alimentant les connaissances et affirmations que tu restitues. Si différentes sources majeures venaient à disparaître ou à ne plus être autant actualisées qu’auparavant en raison de cette baisse du trafic, n’y a-t-il pas un risque d’appauvrissement de tes propres contenus, ton essor sapant, à terme, la multiplicité de sources pertinentes (et donc les tiennes également)?» Voici un extrait de leurs conclusions.

ChatGPT (OpenAI): «IA et sources ouvertes forment un écosystème symbiotique. L’IA a besoin de contenu vivant, et les communautés humaines peuvent bénéficier de l’IA pour enrichir, corriger et diffuser leur savoir. Mais si l’équilibre se rompt –si la création originale ou la vérification humaine décline–, les modèles génératifs risquent de tourner en vase clos, recyclant des approximations anciennes: un monde de « copie sans source ».»

Gemini (Google): «Le risque est réel et constitue un défi pour la pérennité de l’écosystème du savoir en ligne. Pour que les IA restent utiles, l’impératif sera de trouver un équilibre économique et social qui assure la rémunération et la motivation des créateurs et des conservateurs de contenu original. L’avenir dépendra beaucoup de la capacité à créer de nouvelles boucles de valeur entre l’IA et les producteurs d’informations.»

Claude (Anthropic): «Tu soulèves un paradoxe crucial qu’on pourrait appeler le « dilemme de l’IA extractive »: si les modèles comme moi détournent le trafic des sources originales, nous risquons effectivement de tarir les écosystèmes informationnels dont nous dépendons. […] Cependant, quelques nuances. Certains espèrent que l’IA pourrait « augmenter » l’engagement: si je cite bien mes sources et renvoie vers elles, je pourrais être un « portail » plutôt qu’un « mur ». Mais cela exige que les développeurs d’IA le priorisent.»

«Si on ne retrouve plus la largeur de vue humaine, l’appauvrissement des contenus est à l’horizon.»

Hugues Bersini

Professeur d’informatique et d’IA à l’ULB.

Une lecture que valide Hugues Bersini, professeur d’informatique et d’IA à l’ULB: «Il n’est pas du tout impossible que les éléments dont ces logiciels se serviront dans les années à venir proviennent en bonne partie d’eux-mêmes. Ce serait le serpent qui se mord la queue. On pourrait alors imaginer une dégradation de la qualité, les sources originales disparaissant peu à peu au profit de créations par des machines. Cela peut s’expliquer scientifiquement, puisqu’on sait que ChatGPT interpole des éléments à partir des textes qui lui sont soumis (NDLR: on parle aussi d’hallucinations). Si un tel processus se répète et si on ne retrouve plus la largeur de vue que les humains peuvent proposer, l’appauvrissement des contenus est à l’horizon.» L’article de Nature fait d’ailleurs état d’une «disparition des extrémités de la distribution du contenu original». Une sérieuse entrave à la multiplicité des sources.

Selon Hugues Bersini, «on pourrait s’attendre à ce que la dégradation des propositions des IA porte surtout sur des secteurs requérant une grande créativité, comme l’art et la littérature. En revanche, le risque me paraît plus limité pour des domaines bien circonscris, comme les sciences exactes et l’informatique.» De son côté, Pierre Dupont pointe une autre nuance importante: l’apprentissage des LLM les plus récents ne repose plus que sur le savoir disponible en ligne, mais aussi sur les échanges avec les utilisateurs. «Quand on pose une question à une IA, le calcul menant vers sa réponse dépend de la taille de la fenêtre contextuelle qu’on lui donne. Dans les problèmes de logique, on s’est rendu compte qu’elle fournissait une meilleure réponse si, avant la vraie question, on lui donnait la solution à d’autres problèmes similaires. C’est ce qu’on appelle le chain of thought, ou «chaîne de pensée». De manière générale, la communauté s’accorde plutôt sur le fait que les modèles continueront de s’améliorer. Les derniers sont d’ailleurs objectivement plus performants.»

L’indispensable humain?

Malgré l’intarissable puits des contenus générés par l’IA, un solide rempart se dessine à l’horizon: dans un avenir relativement proche, la création humaine sera d’autant plus valorisée qu’elle deviendra plus rare, estiment bon nombre d’observateurs. Un espoir utopique? «Non, je pense que c’est tout à fait pertinent, objecte Hugues Bersini. En tant qu’amateur de jazz, je vois des groupes remonter sur scène, parce que c’est devenu leur seule façon, ou presque, de gagner leur vie en raison de la concurrence des plateformes de streaming. Le public et eux-mêmes en tirent beaucoup de plaisir. Le théâtre pourrait lui aussi retrouver une importance qui fut un peu délaissée au profit du cinéma. Soyons clairs: de nombreux métiers sont menacés et s’en verront au minimum transformés. Mais la dimension humaine continuera de primer dans de nombreux domaines.»