L’intelligence artificielle générative connaît un essor fulgurant. Une étude récente met cependant en lumière un problème préoccupant : l’utilisation de données générées par IA pour entraîner de nouveaux modèles pourrait conduire à leur dégradation progressive. Ce phénomène, qualifié d’autophagie de modèle, soulève des questions cruciales sur l’avenir et la fiabilité des systèmes d’IA.
Le cercle vicieux de l’autophagie de modèle
Des chercheurs des universités de Rice et de Stanford ont mené une expérience révélatrice sur le modèle StyleGAN-2. En réentraînant ce générateur d’images avec ses propres créations sur plusieurs itérations, ils ont observé l’apparition croissante d’artefacts et de distorsions dans les résultats. Dès la cinquième génération, les images présentaient des hachures et des altérations visuelles importantes.
Ce phénomène, baptisé « Model Autophagy Disorder » (MAD), se manifeste par un éloignement progressif des données synthétiques par rapport aux données réelles. Les chercheurs ont constaté que même l’ajout d’un ensemble fixe de données réelles ne faisait que ralentir cette dégradation, sans l’empêcher totalement.
Des conséquences potentiellement désastreuses
L’étude, publiée dans la prestigieuse revue Nature, souligne les risques liés à cette pratique. Ilia Shumailov, chercheuse à l’université d’Oxford, et son équipe ont démontré que ce problème pouvait toucher divers types d’IA, y compris les grands modèles de langage (LLM). Dans un cas extrême, un texte initial sur l’architecture médiévale s’est transformé, après neuf itérations, en une liste d’espèces de lièvres.
Les implications de ce phénomène sont considérables. Sans contrôle, le MAD pourrait théoriquement « empoisonner » la qualité et la diversité des données sur l’ensemble d’Internet, affectant ainsi la fiabilité des futurs modèles d’IA.
Vers des solutions pour préserver la qualité des IA
Face à ce défi, les chercheurs proposent plusieurs pistes. L’ajout systématique de filigranes numériques aux contenus générés par IA permettrait de les identifier plus facilement lors de la création de bases d’entraînement. Une coordination sans précédent entre les géants du numérique serait nécessaire pour mettre en place de telles pratiques.
Par ailleurs, il devient crucial de maintenir un apport constant de données « fraîches » produites par des humains. Cela pourrait nécessiter la création d’incitations pour encourager la production de contenus originaux par des créateurs humains.
Lire plus d’articles sur DigiTechnologie :
– Des robots assistent les dentistes, cliquez-ici
– Les sites de stockage de CO2 en Europe, cliquez-ici
– Tester les meilleurs logiciels de sondage, cliquez-ici
– Comprendre les océans avec SeaOrbiter, cliquez-ici