Les LLMs à l’épreuve des tests, savoir,...

Les LLMs à l’épreuve des tests

Résumé Exécutif : Benchmarks IA vs Intelligence Réelle

Constat Principal : Les résultats aux différents benchmarks montrent deux types de capacités chez les modèles : une où ils excellent, une autre où les résultats sont balbutiants.

Nous avons construit d’extraordinaires amplificateurs de mémoire déjà indispensables pour le travail réel. Les indices de performance agrégés reflètent fidèlement cette utilité pratique. Pour la pensée abstraite en territoire vierge, l’IA reste très loin derrière l’humain. L’avenir nécessite de combiner mémoire et généralisation robuste—un saut qui n’a pas encore eu lieu.

Glossaire : comprendre les termes techniques

Benchmark (test de référence): Imaginez un examen standardisé comme le bac ou le TOEFL, mais pour les IA. C’est un ensemble de questions ou de tâches identiques pour tous les modèles, permettant de les comparer objectivement. Exemples : MMLU teste la culture générale sur 57 matières, AIME pose des problèmes de maths niveau compétition, LiveCodeBench demande d’écrire du code qui fonctionne vraiment.
Contamination (des données d’entraînement): C’est quand un élève a déjà vu les questions d’examen avant de le passer. Pour les IA, ça arrive parce qu’elles sont entraînées sur des quantités gigantesques de textes du web — et les questions des tests de référence s’y trouvent souvent, discutées dans des forums, des articles, des notebooks de code. Résultat : le modèle peut “reconnaître” une question plutôt que vraiment la résoudre. Ce n’est pas de la triche volontaire, mais une conséquence inévitable de leur méthode d’apprentissage.
Intelligence fluide: Terme venant de la psychologie cognitive. C’est votre capacité à résoudre un problème complètement nouveau, que vous n’avez jamais rencontré, sans pouvoir vous appuyer sur vos connaissances. Par exemple : comprendre la règle d’un nouveau jeu en regardant trois parties, ou résoudre une énigme logique inédite. C’est l’opposé de l’intelligence “cristallisée” (vos connaissances accumulées). Les enfants excellent en intelligence fluide c’est pour ça qu’ils apprennent si vite mais cette capacité tend à décliner avec l’âge, tandis que l’intelligence cristallisée continue de croître. Paradoxalement, nos IA actuelles ressemblent plus à des adultes experts : beaucoup de connaissances cristallisées, peu d’intelligence fluide.
Heuristique (règle approximative): Une astuce mentale qui marche souvent mais pas toujours. Exemple dans un QCM : “la réponse la plus longue est souvent la bonne” ou “si deux réponses se contredisent, la vraie est probablement l’une des deux”. Les IA développent des heuristiques sophistiquées à force d’être exposées à des millions d’exemples.
Raisonnement hors distribution: “Distribution” désigne ici l’ensemble des exemples vus pendant l’entraînement. “Hors distribution” signifie donc : complètement différent de tout ce que le modèle a déjà rencontré. C’est comme demander à quelqu’un qui n’a appris que l’addition et la soustraction de faire une intégrale : il n’a aucun point d’appui. ARC-AGI 2 teste précisément cette capacité, et les IA actuelles y échouent largement.
Modèle “reasoning” (à raisonnement prolongé): Nouvelle génération d’IA (comme o3 d’OpenAI ou certaines configurations de Grok 4) qui ne répond pas immédiatement. À la place, le modèle “réfléchit” pendant plusieurs secondes ou minutes, en décomposant le problème étape par étape, comme nous le ferions sur un brouillon. Ça améliore les résultats sur les problèmes complexes, mais reste coûteux en ressources.

Nous vivons une époque étrange. Les intelligences artificielles réussissent des examens de médecine, résolvent des problèmes mathématiques dignes de compétitions, génèrent du code fonctionnel en quelques secondes. Pourtant, face à un puzzle abstrait qu’un enfant résoudrait intuitivement, elles s’effondrent. Cette contradiction dit quelque chose de profond sur ce que nous mesurons vraiment quand nous évaluons les machines et sur ce que nous appelons “intelligence”.

Pour le grand public comme pour les pros, des plateformes comme Artificial Analysis sont devenues la référence. Leur Intelligence Index (AI²) agrège des performances sur des batteries d’épreuves (connaissances, maths, code, suivi d’instructions, long contexte) et ordonne Claude, GPT, Grok, Gemini ou Llama dans de beaux classements. Utile pour choisir un modèle, oui. Mais ces scores capturent surtout la capacité à mobiliser une mémoire géante, pas forcément la faculté à penser dans l’inconnu.

L’illusion des grands examens

Depuis GPT-3, la “culture du benchmark” s’est imposée. MMLU teste des connaissances dans 57 disciplines ; GPQA Diamond pousse l’expertise scientifique jusqu’au PhD ; AIME et GSM8K stress-testent les chaînes de raisonnement mathématiques ; LiveCodeBench et SciCode jugent le code par tests unitaires. Résultat : des chiffres spectaculaires. Claude 4.5 tutoie les meilleurs scores sur GPQA Diamond ; Grok 4 affiche des progrès visibles sur des bancs de raisonnement ; des modèles “reasoning” comme o3 montrent qu’allonger la réflexion aide.

Mais que mesurent ces victoires ? Pour l’essentiel, deux choses :

une mémoire encyclopédique (récupérer, combiner, reformuler du savoir déjà vu),
des heuristiques locales efficaces (élimination, cohérence d’unités, motifs de preuve).

Un très bon score dit qu’un modèle sait appliquer ce qu’il a absorbé pas qu’il sait inventer une règle nouvelle.

La contamination : péché originel… et vertu cachée

On accuse souvent la contamination (des items de test déjà vus à l’entraînement) de fausser les évaluations. C’est vrai pour nombre d’épreuves publiques, discutées dans des milliers de notebooks et papiers. Mais cette “contamination” n’est pas un bug : c’est le mode d’apprentissage primaire des LLMs. Ils deviennent utiles parce qu’ils ont tout lu.

Et c’est précisément ce qui les rend brillants en programmation. Un développeur n’invente pas un parseur tous les matins : il réutilise des patterns, des APIs, des snippets. Les LLMs font pareil, en turbo. Reconnaissance de motifs, adaptation de solutions existantes, respect des conventions : voilà pourquoi ils déboguent, refactorent, écrivent des tests, et font gagner du temps réel. Idem pour la littérature scientifique : “avoir tout lu” permet de connecter des idées qu’un humain isolé mettrait des semaines à rapprocher.

Le problème n’est donc pas la contamination ; c’est la confusion entre cette compétence (super utile) et le raisonnement abstrait. Ce dernier consiste à découvrir une règle à partir de peu d’exemples et à généraliser hors programme. Là, la mémoire ne suffit plus.

ARC-AGI 2 : le test que l’on ne peut pas bachoter

C’est tout l’esprit d’ARC, imaginé par François Chollet : de petits puzzles visuels où il faut induire une règle cachée à partir de quelques exemples et l’appliquer à un nouveau cas. La première version (publique) a fini “connue” des modèles. Alors est venu ARC-AGI 2 : puzzles inédits, générés procéduralement, évaluation fermée. Impossible de bachoter.

Le verdict est net. Humains : ~85–90 %. GPT-4-like : ~0–3 %. Même les modèles “reasoning” haut de gamme (o3, Grok 4 avec configurations lourdes) restent faibles en valeur absolue. Bref, dès qu’il faut raisonner hors distribution, les machines trébuchent.

Un frémissement de progrès

Il serait exagéré de dire que les IA n’avancent pas du tout en raisonnement. Des modèles comme o3 d’OpenAI ou Grok 4 “Heavy” obtiennent désormais entre 10 et 16 % sur ARC-AGI 2, là où GPT-4-like restaient bloqués à 0–3 %. C’est encore loin des 85–90 % humains, mais c’est une amélioration notable. Elle ne traduit pas une intelligence fluide émergente, mais montre qu’en allongeant les boucles de réflexion ou en orchestrant des agents multi-étapes, on peut simuler un peu mieux l’abstraction.

Cela ne change pas la conclusion : les IA restent surtout des amplificateurs de mémoire, mais les premières pierres d’un raisonnement plus robuste apparaissent.

Le paradoxe utile

Il y a donc deux intelligences à distinguer. L’intelligence pratique, qui mobilise vite et bien un grand stock de savoirs et de recettes : c’est là que les LLMs excellent, et c’est ce que captent les indices type Artificial Analysis. Et l’intelligence abstraite, celle qui invente des règles dans l’inconnu : c’est ce que mesure ARC-AGI 2, où les modèles restent, pour l’instant, très loin derrière nous.

Le futur ? Probablement une réconciliation : garder la mémoire (indispensable en usage réel), y adjoindre de la généralisation robuste. Les premières briques existent (reasoning prolongé, agents, hybridations neuro-symboliques), mais le saut qualitatif n’a pas encore eu lieu.

Conclusion

Nous avons construit d’extraordinaires amplificateurs de mémoire. Ils sont déjà indispensables — surtout pour le code, la synthèse, la recherche documentaire — et les classements agrégés comme l’Intelligence Index reflètent bien cette utilité. Mais pour la pensée abstraite en terrain vierge, le miroir d’ARC-AGI 2 nous renvoie une image plus humble. C’est moins une déception qu’une boussole : savoir où les IA sont fortes, où elles ne le sont pas, et quoi construire ensuite.

Annexe – Benchmarks et scores 2024–2025

Il est important ici de savoir, que les chiffres ont été rapporté la plupart du temps par les sociétés éditrices, il faut donc rester vigilant.

MMLU / MMLU-Pro

Questions à choix multiples couvrant 57 disciplines académiques (sciences, droit, histoire, etc.). Mesure la largeur encyclopédique et l'application de concepts appris.

Modèle / Humains	Score
Humains (PhD, experts)	~89,8 %
GPT-4.1	90,2 %
GPT-4o	88,7 %
GPT-4o mini	82,0 %
Claude 3.5 Sonnet	~88 %
Grok-1.5	81,3 %
o3 / o4 (OpenAI)	~85 %

AIME / GSM8K

Problèmes mathématiques de compétition (AIME = lycée avancé, GSM8K = niveau collège). Mesurent la capacité de raisonnement multi-étapes.

Modèle / Humains	Score
Humains (lycéens compétitifs)	très variable
GPT-4o mini (MGSM)	87,0 %
Claude Sonnet 4.5	~100 % (AIME 2025, avec Python)
Grok 4	90–95 %
Grok 4 Heavy (AIME 2025)	100 %
o3 (OpenAI)	88,9 %
o4-mini (OpenAI)	92,7 % (sans outils) / 99,5 % (avec Python)

GPQA Diamond

Questions scientifiques de niveau PhD, conçues pour être difficiles à googler.

Modèle / Humains	Score
Humains (PhD experts)	69,7 %
GPT-4o	53,6 %
GPT-4.1 nano	50,3 %
Claude Sonnet 4.5	83,4 %
Grok 4	87,5 %
Grok 4 Heavy	88,9 %
o3 (OpenAI)	87,7 %

LiveCodeBench / SWE-bench Verified

Benchmarks de génération de code validés automatiquement par tests unitaires.

Modèle / Humains	Score
Humains (développeurs confirmés)	>90 %
GPT-4.1	54,6 %
o3 (OpenAI)	69,1 %
Claude Sonnet 4.5	77,2 % (82 % avec parallélisation)
Grok 4	75 %
Grok 4 (avec Python)	79,3 %

ARC-AGI 1

Puzzles visuels d’abstraction (ensemble public). Exposé à la contamination, donc performances à interpréter avec prudence.

Modèle / Humains	Score
Humains (moyenne)	64,2 %
Humains (meilleurs solveurs)	~85–100 %
GPT-4	7 %
GPT-4o	~4–5 % (pur) / ~50 % (avec génération de programmes Python)
Claude 4.5	~20–40 % (estim.)
Grok 4	66,7 %
o3 (OpenAI)	75,7 % (budget normal) / 87,5 % (compute élevé)

ARC-AGI 2

Puzzles visuels inédits, générés procéduralement et fermés. Conçu pour résister à la contamination.

Modèle / Humains	Score
Humains (live study)	~60 % (moyenne), 85–90 % (solveurs experts)
GPT-4-like	0–3 %
Claude Opus 4	8,6 %
Grok 4	15,9 %
Grok 4 Heavy	16,2 %
o3 (OpenAI)	6–7 %
GPT-5 (Medium, preview)	~7,5 %