Données synthétiques : model collapse et...

Résumé exécutif

Constat : la donnée synthétique est devenue indispensable pour entraîner et tester des systèmes lorsque le réel est rare, coûteux ou dangereux à collecter.

Risque documenté : utilisée récursivement pour l’entraînement, elle peut provoquer un model collapse qui efface progressivement les cas rares et appauvrit la distribution apprise.

Risque émergent : lorsqu’un même modèle du monde produit les données d’entraînement et d’évaluation, la recherche peut mesurer la conformité à un simulateur plutôt que la robustesse face au réel.

Thèse : la donnée synthétique doit augmenter la portée du réel, pas s’y substituer. Une validation externe, indépendante et fondée sur des données réelles reste l’ancre indispensable.

Avant tout : ce qu’est la science

Avant de parler de données synthétiques, il faut reparler de méthode scientifique. Pas par pédantisme parce que c’est le cœur du problème.

La science n’est pas une collection de vérités. C’est un processus.

Un processus qui part d’une observation, formule une hypothèse, construit une expérience, recueille des données, et confronte le modèle à la réalité. L’étape décisive n’est pas la confirmation. C’est la possibilité d’être contredit.

Karl Popper l’a formulé clairement : une théorie scientifique n’est pas celle qui a été prouvée, c’est celle qui peut être réfutée. Ce qui ne peut pas être faux ne dit rien sur le monde. La valeur d’une expérience tient précisément à sa capacité à révéler que l’hypothèse était mauvaise.

C’est la résistance du réel qui donne son prix à la démarche.

Le réel contredit. Le réel déborde les catégories. Le réel produit des cas que personne n’avait prévus.

Un protocole expérimental sérieux est conçu pour maximiser les chances que cette résistance s’exprime. On teste hors distribution. On cherche les cas limites. On confronte le modèle à des populations différentes, des contextes différents, des erreurs différentes de celles qu’on anticipait.

Quand cette résistance disparaît, la science continue d’avoir l’apparence de la science. Les équations sont là. Les tableaux sont là. Les p-values sont là. Mais quelque chose d’essentiel s’est évaporé : la possibilité d’être démenti par quelque chose d’extérieur à soi-même.

C’est exactement le problème que pose la donnée synthétique mal utilisée.

Acte 1 Ce qu’est la donnée synthétique, honnêtement

La donnée synthétique, c’est de la donnée générée par un algorithme plutôt que collectée dans le monde réel.

Ça peut être des images de synthèse, des conversations simulées, des trajectoires d’agents, des cas médicaux générés, des scénarios de conduite autonome, des exemples de code, des questions-réponses fabriquées pour entraîner un modèle de langage.

Et c’est souvent indispensable.

Prenons AlphaFold, le système de DeepMind pour prédire la structure des protéines. La biologie expérimentale ne fournit pas suffisamment de structures protéiques résolues pour entraîner un modèle à grande échelle. Les données synthétiques structures simulées, contraintes physiques modélisées ont permis de combler cette lacune. Le résultat a été validé par confrontation avec des structures réelles, et a résisté à cette confrontation. C’est le bon usage : combler une lacune du réel, puis valider contre le réel.

Autre exemple : la sécurité des véhicules autonomes. On ne peut pas provoquer délibérément des milliers d’accidents mortels pour entraîner un système à les éviter. Les scénarios synthétiques piéton surgissant de derrière un bus, verglas à la sortie d’un tunnel permettent d’explorer des espaces de risque que la collecte terrain seule ne couvrirait jamais assez vite.

La donnée synthétique est une prothèse de recherche puissante. Elle permet d’aller plus vite, de tester plus large, d’explorer ce que le réel ne fournit pas en quantité suffisante.

Mais une prothèse n’est pas un organe.

Et c’est ici que le cadrage conceptuel compte : une donnée synthétique n’est pas une donnée neutre. C’est une hypothèse matérialisée.

Une conversation synthétique est une hypothèse sur ce qu’est une conversation probable. Un utilisateur synthétique est une hypothèse sur ce qu’est un utilisateur. Un cas limite synthétique est une hypothèse sur ce que le chercheur imagine être un cas limite.

Ce n’est pas rien. C’est même précieux. Mais ce n’est pas neutre. Et confondre les deux ouvre la porte à des problèmes sérieux dont certains sont maintenant documentés, et d’autres sont encore à peine visibles.

Acte 2 Ce qu’on sait : le model collapse à l’entraînement

En juillet 2024, Shumailov et al. publient dans Nature un résultat documenté : entraîner un modèle de manière récursive sur des données synthétiques mène au model collapse.

Le mécanisme : chaque génération encode de petites erreurs et des biais dans ses sorties. La génération suivante s’entraîne sur ces données légèrement dégradées. Les queues de distribution disparaissent progressivement les cas rares, les anomalies, les aspérités du monde réel s’effacent au profit d’une version appauvrie et lissée. Dans l’exemple iconique du papier : on entre avec un texte sur l’architecture médiévale, et au bout de neuf générations, le modèle produit une liste de lapins des plaines.

Ce résultat n’a pas été démenti il a été confirmé et approfondi. La nuance principale : la variable critique est la stratégie de mélange. Remplacer les données réelles par du synthétique rend le collapse inévitable et mathématiquement prouvé. Accumuler conserver les données réelles comme ancre permanente le ralentit. Mais Strong Model Collapse (ICLR 2025) précise que même le mélange ne suffit pas tant que la fraction synthétique ne disparaît pas asymptotiquement.

La conclusion est paradoxale : toutes les stratégies de mitigation exigent un approvisionnement croissant en données réelles fraîches. La donnée réelle reste irremplaçable comme ancre. Le synthétique ne peut pas se substituer au monde il peut seulement le compléter, à condition de ne jamais le remplacer.

C’est le problème documenté. C’est le problème visible.

Il concerne l’entraînement. Mais la donnée synthétique est utilisée à trois niveaux distincts, avec des risques de nature très différente :

Pour entraîner : le collapse est démontré. Le risque est technique, mesurable, partiellement mitigeable.

Pour tester : le risque est la couverture. Un benchmark synthétique couvre les chemins que son générateur a imaginés pas les cas hors distribution que le monde réel produira.

Pour valider scientifiquement une thèse : c’est ici que le risque devient épistémologique. Et c’est ici qu’il est encore largement sous-documenté.

Acte 3 Ce qu’on ne sait pas encore : vers un collapse épistémique ?

Le troisième niveau la validation scientifique est celui où je perçois un risque encore peu discuté. Je ne suis pas chercheur. Ce qui suit n’est pas un diagnostic établi, mais l’observation d’un pattern qui mérite, me semble-t-il, qu’on s’y arrête.

Avant de le décrire, une précision s’impose. En physique ou en économie, les environnements artificiels ont toujours eu leur place : la chambre à vide, le marché de concurrence pure et parfaite, les simulations de Monte Carlo. Ces modèles ne décrivent pas le monde réel ils servent à isoler des variables qu’il serait impossible de dissocier dans le bruit du réel. Personne ne prétend que le vide parfait existe. L’artificialité est assumée, annoncée, intégrée à l’interprétation des résultats.

Ce qui m’interroge en IA, c’est précisément quand cette distinction s’efface quand les données synthétiques servent à valider sans que leur nature hypothétique soit clairement posée comme telle.

Quand la donnée synthétique sert à valider une thèse, la boucle risque de se fermer sur elle-même. On ne confronte plus le système au monde réel. On confronte le système à une version artificielle du monde, construite à partir des mêmes hypothèses que le système lui-même. La résistance du réel n’est pas supprimée délibérément elle n’est simplement jamais convoquée.

Prenons un exemple concret : le papier Compiling Agentic Workflows into LLM Weights (arXiv, mai 2026). L’idée est élégante au lieu d’exécuter un workflow agentique avec un orchestrateur externe coûteux, on génère des conversations à partir de ce workflow, on fine-tune un petit modèle dessus, et la procédure est “compilée” dans ses poids.

Le papier présente un workflow d’assurance avec 55 nœuds et 6 hubs de décision. La complexité est réelle.

Mais les conversations d’entraînement et d’évaluation sont générées depuis le flowchart lui-même.

Ce qui m’interpelle : que valide-t-on exactement ?

La capacité du modèle à gérer de vrais assurés, avec leurs hésitations, leurs documents incomplets, leurs erreurs de compréhension, leurs cas juridiquement ambigus ?

Ou sa capacité à imiter la grammaire conversationnelle d’un simulateur construit à partir du workflow ?

La différence est décisive. Un simulateur n’est pas le monde. Un flowchart n’est pas une population. Une couverture de chemins synthétiques n’est pas une couverture du réel. Dans ce contexte, la donnée synthétique n’appauvrit pas le modèle elle appauvrit la question posée. Elle produit des résultats propres, lisibles, convaincants, parfaitement alignés avec l’hypothèse de départ, parce qu’elle en est issue.

Je ne dis pas que la recherche en IA va droit vers un effondrement épistémique. Ce serait précisément le genre d’affirmation trop large que cet article critique.

Ce que j’observe, c’est un précédent historique qui devrait nous rendre attentifs. La crise de réplication en psychologie sociale (2010-2020) a révélé que des dizaines d’études publiées dans des revues sérieuses, avec des résultats techniquement solides, ne se reproduisaient pas dans d’autres conditions. La cause profonde n’était pas la fraude. C’était des conditions expérimentales trop contrôlées, trop propres, qui testaient la cohérence d’un protocole plutôt que la robustesse d’un phénomène.

La recherche en IA n’est pas la psychologie sociale. Mais elle dispose d’un levier que la psychologie n’avait pas : la capacité de générer elle-même son terrain d’expérience. Ce levier est puissant. Il mérite d’être manié avec une conscience explicite de ce qu’il peut produire.

Acte 4 Le facteur aggravant : la chaîne de diffusion sous tension

Jusqu’ici, on a parlé de problèmes méthodologiques. Des problèmes sérieux, mais qui restent dans le périmètre de la communauté scientifique, où des mécanismes de correction existent la peer review, la réplication, la critique publique.

La recherche en IA a une particularité qui met ces mécanismes sous pression : sa chaîne de diffusion fonctionne à une vitesse sans précédent.

La structure temporelle du problème.

Un papier déposé sur ArXiv est public en 24 heures. La peer review sérieuse prend entre trois mois et dix-huit mois. Entre les deux, il y a une fenêtre où le papier existe comme artefact citable avec le format d’un article scientifique, les équations, les ablations, les tableaux de résultats, les références sans en avoir encore subi la validation externe.

Dans la plupart des domaines scientifiques, les preprints circulent d’abord dans la communauté des chercheurs, qui ont les outils pour évaluer leur solidité. En IA, la diffusion est immédiate et beaucoup plus large.

Le problème n’est pas l’intention c’est la structure.

Un créateur de contenu qui couvre l’IA sérieusement fait face à un débit d’environ cinquante papiers significatifs par semaine. Son audience attend du contenu régulier. L’économie de l’attention dans laquelle il opère récompense naturellement le claim fort et la découverte spectaculaire et rend difficile la mise en avant de la nuance, de la condition, du “ça dépend”.

Ce n’est pas une faiblesse individuelle. C’est une contrainte structurelle qui produit des effets systémiques prévisibles : l’abstract devient le papier. Le titre devient la conclusion. Les conditions précises sous lesquelles un résultat tient disparaissent dans la compression.

“Claude ressent des émotions” circule en quelques heures. La nuance d’Anthropic représentations internes, rôle causal, absence de subjectivité arrive à des jours de distance, dans des fils que peu de gens lisent parce que le premier post a déjà été massivement partagé.

“Les LLMs vont s’effondrer à cause des données synthétiques” circule. La distinction accumulation/remplacement, le ratio optimal, les conditions précises du collapse s’effacent dans la transmission.

Un preprint ArXiv acquiert le statut de vérité établie avant que la communauté ait eu le temps de le tester sérieusement.

Et la boucle se referme.

Ce qui est structurellement préoccupant, c’est que ce mécanisme de diffusion ressemble au model collapse qu’il décrit parfois mal.

Les papiers citent des preprints non encore validés. Les créateurs de contenu compriment et amplifient vers des formulations simplifiées. Ces formulations entrent dans le corpus sur lequel les prochains LLMs sont entraînés. Les LLMs reproduisent ces claims simplifiés comme s’ils étaient établis parce que statistiquement, ils le sont dans leur corpus. Les chercheurs utilisent ces LLMs pour faire leur veille bibliographique. Les prochains papiers partent de ces bases.

Ce n’est pas encore un collapse démontré c’est un risque de dérive. Mais la structure est là : une communauté qui construit et transmet sa connaissance à travers des cycles de compression successifs finit par perdre ce qui rendait cette connaissance précise.

Les queues de distribution pourraient disparaître. Les nuances s’effacer. Les cas limites, les conditions, les réfutations partielles tout ce qui fait la richesse d’un résultat scientifique honnête se diluer à chaque cycle. Ce n’est pas inévitable. Mais ça mérite qu’on y fasse attention.

Ce qui reste à faire

La donnée synthétique n’est pas un problème. C’est un outil. Comme tout outil puissant, elle peut être utilisée rigoureusement ou négligemment et la frontière entre les deux n’est pas toujours visible de l’extérieur.

Pour chaque résultat fondé sur des données générées, quelques questions simples s’imposent :

Le générateur est-il indépendant du modèle testé ?
Les données synthétiques ont-elles été confrontées à des données réelles ?
Les cas hors distribution ont-ils été testés ?
Le système a-t-il été évalué sur des utilisateurs réels, des erreurs réelles, des ambiguïtés réelles ?
Les métriques mesurent-elles la robustesse face au monde, ou la conformité au simulateur ?

Et une dernière question, pour la chaîne de diffusion :

Ce papier a-t-il été relu par des pairs ? Depuis combien de temps est-il sur ArXiv ? Quelles sont les conditions précises sous lesquelles ce résultat tient ?

Le bon usage de la donnée synthétique n’est donc pas de remplacer le réel, mais d’augmenter sa portée. Elle peut explorer les cas rares, équilibrer les distributions, tester des hypothèses. Mais elle doit rester attachée à une validation externe, indépendante, réelle.

La science n’est pas une collection d’affirmations fortes. C’est un processus de résistance au monde.

Et le monde, régulièrement, a l’ingratitude de ne pas ressembler à nos hypothèses.

C’est exactement pour ça qu’il vaut la peine d’être regardé en face.

Données synthétiques : du model collapse au risque épistémique