Guide de conception d'agents IA

Articles connexes : Guide pratique de conception d’agents IA | Les briques fondamentales pour construire un agent | Les 11 patterns d’orchestration multi-agents

Agents mono et multi-agents basés sur des LLM

Version : 1.0 Date : Janvier 2026 Méthodologie : Analyse systématique basée sur publications empiriques (2023-2025)

1. Introduction

1.1 Objectif de l’analyse

Cette analyse identifie, classifie et évalue les patterns liés aux agents IA basés sur des LLM (Large Language Models) qui paraissent prometteurs mais dont la réalisabilité reste structurellement limitée avec les architectures actuelles. L’objectif est de fournir un cadre critique, falsifiable et non spéculatif pour évaluer les capacités réelles des systèmes agentiques.

1.2 Périmètre

Inclus :

Agents basés sur des LLM (GPT-4, Claude, Llama, etc.)
Architectures mono-agent et multi-agents
Systèmes d’orchestration, mémoire, outils et supervision
Cas observables et reproductibles documentés dans la littérature

Exclu strictement :

Intelligence Générale Artificielle (AGI) spéculative
Affirmations marketing sans données empiriques
Descriptions anthropomorphiques des capacités
Hypothèses non testables

1.3 Définitions opérationnelles

Agent IA : Système basé sur un LLM capable de percevoir un état, produire du raisonnement local (génération de tokens) et déclencher des actions via une orchestration explicite (code, API, outils).

Système Multi-agents : Ensemble d’agents coordonnés par un protocole explicite. Le multi-agents n’implique aucune intelligence collective émergente par défaut ; toute apparence de coordination supérieure provient de l’orchestrateur ou du protocole de communication.

Scaling : Augmentation des paramètres du modèle, des données d’entraînement ou du compute d’inférence.

1.4 Synthèse des conclusions principales

Constats critiques

Le scaling ne résout pas les limitations structurelles : L’augmentation de la taille des modèles améliore la connaissance factuelle et la fluence linguistique, mais ne corrige pas l’absence de planification autonome, de raisonnement causal ou de compréhension logique profonde (Kambhampati et al., 2024; Valmeekam et al., 2025).
Les systèmes multi-agents échouent dans 41-87% des cas : L’étude MAST (Cemri et al., 2025) identifie 14 modes d’échec distincts, dont 79% proviennent de problèmes de spécification et de coordination, non de limitations techniques d’infrastructure.
L’auto-correction sans feedback externe est illusoire : Les agents ne peuvent pas détecter leurs propres erreurs sans vérificateur externe déterministe (compilateur, test, oracle). L’auto-critique augmente la confiance sans améliorer la précision (Huang et al., 2024; Stechly et al., 2024).
Le multi-agent ne surpasse pas le mono-agent sur la majorité des benchmarks : Les gains de performance sont marginaux et souvent inférieurs à des approches simples comme le best-of-N sampling (Kapoor et al., 2024; Wang et al., 2024).
Les “capacités émergentes” sont des artefacts métriques : Les sauts qualitatifs apparents lors du scaling résultent de choix de métriques non-linéaires, non de réelles transitions de phase cognitive (Schaeffer et al., 2023).

Patterns viables vs. patterns prématurés

Catégorie	Viabilité	Exemples
Fonctionnel	Tâches où le feedback est déterministe	Tests unitaires, traduction code, SQL
Fragile	Dépendance à des prompts spécifiques	RAG, self-consistency, ReAct
Prématuré	Promesse sans preuve de robustesse	Agent universel, planification autonome
Structurellement impossible	Contradiction avec l’architecture	Auto-vérification, raisonnement causal intrinsèque

1.5 Recommandations de design

Privilégier les boucles fermées : Le succès agentique nécessite un vérificateur externe déterministe (compilateur, simulateur, test automatisé).
Limiter le scope par agent : Les agents performants opèrent dans des domaines étroits et bien définis, non en “généralistes”.
Traiter le multi-agent comme orchestration, non comme intelligence collective : Le “locus de décision” réel est l’orchestrateur (souvent du code Python), pas les agents eux-mêmes.
Assumer 85-90% comme plafond de fiabilité : Pour les derniers 10%, investir dans la supervision humaine plutôt que dans l’augmentation du modèle.
Documenter les dépendances cachées : Tout système “autonome” doit expliciter ses dépendances humaines implicites (prompt engineering, sélection de données, validation).

2. TABLEAU SYNTHÉTIQUE DES PATTERNS ANALYSÉS

Légende des catégories

Code	Signification
A	Capacité démontrée et robuste
B	Capacité conditionnelle / fragile
C	Limitation structurelle identifiée
D	Échec documenté
E	Promesse prématurée / surinterprétation

2.1 Patterns de planification et raisonnement

#	Pattern	Type	Catégorie	Verdict
1	Planification autonome	Mono	C/D	Structurellement impossible
2	Auto-vérification	Mono	C	Structurellement impossible
3	Raisonnement causal	Mono	C	Prématuré
4	Chain-of-Thought	Mono	B	Fragile
5	Backtracking automatique	Mono	D	Structurellement impossible
6	Réflexion itérative	Mono	B/C	Fragile
7	Self-Consistency	Mono	B	Réalisable avec réserves
8	Tree-of-Thought	Mono	B	Fragile

2.2 Patterns multi-agents

#	Pattern	Type	Catégorie	Verdict
9	Débat multi-agents	Multi	D/E	Prématuré
10	Intelligence collective émergente	Multi	E	Illusion
11	Spécialisation par rôle	Multi	B/C	Fragile
12	Coordination autonome	Multi	D	Prématuré
13	Auto-organisation	Multi	D	Structurellement impossible
14	Vérification croisée	Multi	C/D	Fragile
15	Consensus multi-agents	Multi	D	Illusion

2.3 Patterns mémoire et contexte

#	Pattern	Type	Catégorie	Verdict
16	Mémoire long-terme autonome	Mono/Multi	C	Prématuré
17	RAG (Retrieval-Augmented)	Mono	A/B	Réalisable avec réserves
18	Contexte étendu (>100k tokens)	Mono	B/C	Fragile
19	Mise à jour de mémoire autonome	Mono	D	Prématuré

2.4 Patterns outils et exécution

#	Pattern	Type	Catégorie	Verdict
20	Tool-use simple	Mono	A	Réalisable
21	Tool-use séquentiel (>3 outils)	Mono	B/C	Fragile
22	Self-debugging avec compilateur	Mono	A/B	Réalisable
23	Code-as-Policy	Mono	A	Réalisable
24	Utilisation d’outils inconnus	Mono	D	Prématuré

2.5 Patterns de scaling

#	Pattern	Type	Catégorie	Verdict
25	Scaling améliore le raisonnement	-	E	Surinterprétation
26	Émergence par scaling	-	E	Artefact métrique
27	Agent universel par scaling	-	E	Illusion
28	Fiabilité par redondance	Multi	D	Fragile

3. ANALYSE DÉTAILLÉE DES PATTERNS CRITIQUES

3.1 Pattern : Planification Autonome

Grille d’analyse complète

Champ	Contenu
1. Nom du pattern	Planification Autonome
2. Type	Mono-agent
3. Promesse implicite perçue	Un agent LLM peut décomposer un objectif complexe en sous-étapes, ordonnancer ces étapes et les exécuter de manière autonome jusqu’à l’atteinte de l’objectif.
4. Hypothèse technique sous-jacente	Le modèle a internalisé, via l’entraînement sur du texte humain, des représentations suffisantes de la causalité et de la logique séquentielle pour générer des plans valides.
5. Conditions nécessaires	(a) Capacité de prédiction des effets d’actions, (b) Capacité de backtracking en cas d’impasse, (c) Maintien d’un modèle du monde cohérent, (d) Distinction entre état actuel et état cible.
6. Ce qui fonctionne réellement	Le modèle peut générer des séquences d’actions qui ressemblent à des plans valides sur des domaines fréquents dans les données d’entraînement. La forme textuelle d’un plan est souvent correcte.
7. Limitations structurelles (LLM)	Les LLM sont des systèmes auto-régressifs à temps constant par token. Ils ne peuvent pas effectuer de recherche dans un espace d’états. La génération de token n’est pas conditionnée par la vérification de validité logique.
8. Limitations systémiques	Aucun mécanisme de vérification interne de la cohérence du plan. Pas de représentation explicite des préconditions et effets des actions.
9. Modes d’échec typiques	Plans invalides (actions impossibles dans l’état actuel), plans incomplets (sous-objectifs oubliés), absence de récupération en cas d’échec d’une étape, dépendance circulaire entre étapes.
10. Dépendances cachées	Le prompt contient souvent des exemples de plans valides (few-shot). L’humain valide implicitement la faisabilité du plan. Les domaines testés sont surreprésentés dans les données.
11. Test de robustesse	❌ Prompt minimal : échoue. ❌ Sans intervention humaine : échoue. ❌ Avec bruit/ambiguïté : échoue. ❌ Durée longue : échoue. ❌ Multi-instances même modèle : non applicable.
12. Verdict	Structurellement impossible — Le planning autonome contredit l’architecture fondamentale des LLM auto-régressifs.

Publications de référence

Kambhampati et al. (2024) — “LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks” — ICML 2024. Démontre formellement que les LLM auto-régressifs ne peuvent pas planifier par eux-mêmes.
Valmeekam et al. (2023) — Série PlanBench. Montre que les performances de planification s’effondrent avec de simples renommages de variables.
Stechly et al. (2024) — Analyse de l’échec du backtracking.

3.2 Pattern : Systèmes Multi-Agents avec Débat

Grille d’analyse complète

Champ	Contenu
1. Nom du pattern	Multi-Agent Debate / Discussion
2. Type	Multi-agents
3. Promesse implicite perçue	Plusieurs agents LLM, en confrontant leurs réponses, corrigent mutuellement leurs erreurs et convergent vers une réponse plus précise que celle d’un agent unique.
4. Hypothèse technique sous-jacente	La diversité des réponses + un mécanisme d’arbitrage permet de filtrer les erreurs individuelles (similaire au bagging en ML ou au vote majoritaire).
5. Conditions nécessaires	(a) Indépendance des erreurs entre agents, (b) Capacité de critique constructive, (c) Capacité de distinguer un argument valide d’un argument persuasif, (d) Absence de biais systémique partagé.
6. Ce qui fonctionne réellement	Le débat améliore les résultats uniquement lorsque la réponse correcte est déjà “accessible” via les données d’entraînement (mémorisation distribuée).
7. Limitations structurelles (LLM)	Tous les agents utilisent le même modèle ou des modèles similaires (homogénéité). Les erreurs sont corrélées, pas indépendantes. Le biais de conformité pousse les agents à s’aligner sur la première réponse.
8. Limitations systémiques	Pas de mécanisme de vérité objective. L’agent le plus “persuasif” (verbeux, confiant) l’emporte, pas le plus “correct”. L’absence de ground-truth empêche la convergence vers la vérité.
9. Modes d’échec typiques	Consensus sur une réponse fausse (echo chamber). Amplification des erreurs via validation mutuelle. Boucles de discussion infinies sans convergence. Agent “dominant” qui impose sa réponse.
10. Dépendances cachées	L’orchestrateur définit les règles du débat (qui parle quand, critères de fin). Le prompt initial cadre le débat. Un humain sélectionne souvent la réponse finale.
11. Test de robustesse	❌ Prompt minimal : échoue. ❌ Sans intervention humaine : échoue. ❌ Avec bruit/ambiguïté : échoue sévèrement. ⚠️ Durée longue : dégradation. ❌ Multi-instances même modèle : exacerbe les problèmes.
12. Verdict	Prématuré / Illusion — Le débat multi-agents n’apporte pas d’intelligence collective réelle.

Publications de référence

Liang et al. (2023) — Montre que le débat n’améliore que si la solution est déjà dans les données.
Du et al. (2024) — Social Contagion : l’agent verbeux l’emporte sur l’agent logique.
Cemri et al. (2025) — MAST Framework : 36.94% des échecs multi-agents sont des problèmes de coordination.
Gandhi et al. (2024) — Theory of Mind Gap : les agents échouent à modéliser les croyances des autres agents.

Grille d’analyse complète

Champ	Contenu
1. Nom du pattern	Auto-Correction (Self-Refinement, Reflexion)
2. Type	Mono-agent
3. Promesse implicite perçue	Un agent peut détecter ses propres erreurs, les critiquer et les corriger de manière itérative jusqu’à produire une réponse valide.
4. Hypothèse technique sous-jacente	Le modèle possède une “capacité méta-cognitive” lui permettant d’évaluer la qualité de ses propres outputs.
5. Conditions nécessaires	(a) Capacité de détection d’erreur, (b) Capacité de diagnostic de la cause, (c) Capacité de génération d’une correction appropriée, (d) Critère d’arrêt fiable.
6. Ce qui fonctionne réellement	L’auto-correction fonctionne si et seulement si un vérificateur externe fournit un feedback exploitable (ex: message d’erreur du compilateur, résultat de test automatisé).
7. Limitations structurelles (LLM)	Le modèle utilise les mêmes poids pour générer et pour critiquer. Le biais de confirmation pousse à valider sa propre réponse. Pas de représentation distincte de “production” vs “évaluation”.
8. Limitations systémiques	Sans signal externe, le modèle n’a aucun moyen de distinguer une réponse correcte d’une réponse incorrecte mais plausible. La “critique” générée est elle-même sujette aux mêmes biais.
9. Modes d’échec typiques	Validation d’une réponse fausse comme correcte. Changement d’une réponse correcte vers une réponse incorrecte (sycophancy). Boucles infinies de “correction” sans amélioration. Critique sans action corrective.
10. Dépendances cachées	La structure du prompt induit la “forme” de l’auto-critique. Les exemples few-shot montrent comment critiquer. L’humain valide souvent le résultat final.
11. Test de robustesse	❌ Prompt minimal : échoue. ❌ Sans intervention humaine : échoue massivement. ⚠️ Avec bruit : performance dégradée. ❌ Durée longue : dérive. ❌ Multi-instances même modèle : non applicable.
12. Verdict	Structurellement impossible sans vérificateur externe — L’auto-vérification pure est une illusion.

Publications de référence

Huang et al. (2024) — “Self-Correction Fallacy” : sans feedback externe, le modèle valide ses erreurs.
Madaan et al. (2023) — Self-Refine : succès conditionnel à la qualité du feedback.
Shinn et al. (2023) — Reflexion : amélioration uniquement avec évaluateur déterministe.
Liu et al. (2024) — Sycophancy Trap : l’agent change une bonne réponse pour plaire au “critique”.

3.4 Pattern : Capacités Émergentes par Scaling

Grille d’analyse complète

Champ	Contenu
1. Nom du pattern	Émergence par Scaling
2. Type	Architecture (non spécifique agent)
3. Promesse implicite perçue	En augmentant suffisamment la taille du modèle (paramètres, données, compute), des capacités qualitativement nouvelles “émergent” de manière discontinue.
4. Hypothèse technique sous-jacente	Il existe des seuils critiques de complexité au-delà desquels le modèle acquiert des capacités de raisonnement, de planification ou de compréhension qui étaient absentes auparavant.
5. Conditions nécessaires	(a) Existence réelle de transitions de phase, (b) Indépendance de l’observation par rapport aux métriques choisies, (c) Robustesse des capacités émergées.
6. Ce qui fonctionne réellement	Le scaling améliore la fluence, la couverture factuelle, la cohérence stylistique et la réduction des hallucinations triviales. Les performances sur des benchmarks existants augmentent.
7. Limitations structurelles (LLM)	Les “sauts” observés sont des artefacts de métriques non-linéaires (ex: “réussi/échoué” vs probabilité continue). Les capacités de raisonnement mesurées par des benchmarks spécifiques ne généralisent pas.
8. Limitations systémiques	La contamination des benchmarks (présence dans les données d’entraînement) crée une illusion de capacité. Le scaling ne modifie pas l’architecture fondamentale (auto-régressive, pas de world model).
9. Modes d’échec typiques	Régression sur des variantes simples des problèmes “maîtrisés”. Fragilité aux perturbations lexicales. Succès sur benchmark, échec en conditions réelles.
10. Dépendances cachées	Le benchmark est sélectionné pour montrer le “saut”. Les métriques sont choisies post-hoc. Les comparaisons ignorent le coût (compute, données).
11. Test de robustesse	⚠️ Prompt minimal : variable. ⚠️ Sans intervention humaine : partiel. ❌ Avec perturbations : échec fréquent. ⚠️ Durée longue : stable sur recall factuel. ❌ Multi-instances même modèle : non applicable.
12. Verdict	Surinterprétation / Artefact métrique — Les capacités “émergentes” sont des illusions statistiques.

Publications de référence

Schaeffer et al. (2023) — “Emergence or Metrics?” : démontre que l’émergence apparente résulte de choix métriques.
Zhu et al. (2025) — Emergence Mirage : les capacités observées sont des optimisations métriques mal interprétées.
Gudibande et al. (2024) — The Imitation Trap : la distillation copie le style, pas la logique.

3.5 Pattern : Coordination Multi-Agents Autonome

Grille d’analyse complète

Champ	Contenu
1. Nom du pattern	Coordination Multi-Agents Autonome
2. Type	Multi-agents
3. Promesse implicite perçue	Plusieurs agents peuvent se coordonner de manière autonome, se répartir les tâches et fusionner leurs résultats sans orchestration externe rigide.
4. Hypothèse technique sous-jacente	Les agents développent des protocoles de communication implicites et des mécanismes de coordination via l’échange de messages en langage naturel.
5. Conditions nécessaires	(a) Compréhension mutuelle des rôles, (b) Protocole de communication non-ambigu, (c) Détection et résolution de conflits, (d) Synchronisation d’état partagé.
6. Ce qui fonctionne réellement	La coordination fonctionne lorsque l’orchestrateur (code externe) définit explicitement les flux, les rôles et les critères de transition. Le succès dépend du script, pas des agents.
7. Limitations structurelles (LLM)	Absence de Theory of Mind fiable. Pas de représentation explicite de l’état des autres agents. Communication en langage naturel intrinsèquement ambiguë.
8. Limitations systémiques	80% des échanges inter-agents sont redondants (Zhang et al., 2024). Le passage d’information entre agents dégrade le signal (Information Bottleneck). Pas de mécanisme de “vérité partagée”.
9. Modes d’échec typiques	Deadlock (chaque agent attend l’autre). Duplication de travail. Conflits de ressources non résolus. Perte d’information critique lors des transferts. Boucles infinies.
10. Dépendances cachées	L’orchestrateur Python/JavaScript définit le flux réel. Les prompts spécifient rigidement les rôles. Un humain supervise les blocages.
11. Test de robustesse	❌ Prompt minimal : chaos. ❌ Sans intervention humaine : blocage ou boucle. ❌ Avec bruit/ambiguïté : effondrement. ❌ Durée longue : dérive sémantique. ❌ Multi-instances même modèle : biais amplifiés.
12. Verdict	Prématuré / Structurellement limité — La coordination réelle est dans l’orchestrateur, pas dans les agents.

Publications de référence

Cemri et al. (2025) — MAST : 14 modes d’échec identifiés, 36.94% liés à la coordination.
Zhang et al. (2025) — Orchestrator Bottleneck : 90% du succès dépend de l’orchestrateur central.
Nguyen et al. (2024) — Self-Organizing Fallacy : l’auto-organisation mène au chaos sans script.

4. SYNTHÈSE TRANSVERSALE DES LIMITATIONS

4.1 Limitations structurelles (inhérentes aux LLM)

Ces limitations découlent directement de l’architecture des modèles de langage auto-régressifs et ne peuvent être résolues par scaling ou prompt engineering.

4.1.1 Absence de World Model

Aspect	Constat
Nature	Les LLM ne maintiennent pas de représentation explicite de l’état du monde. Chaque token est prédit conditionnellement au contexte précédent, sans modèle causal sous-jacent.
Conséquence	Incapacité à prédire les effets d’actions, à simuler des états futurs ou à raisonner contrefactuellement.
Implication pour les agents	La “planification” observée est de la complétion de patterns textuels de plans, pas de la génération de plans valides.
Publications	Lopez-Paz et al. (2024), Kambhampati et al. (2024)

4.1.2 Raisonnement comme Pattern-Matching

Aspect	Constat
Nature	Ce qui apparaît comme du “raisonnement” est une interpolation probabiliste entre des patterns vus à l’entraînement.
Conséquence	Échec sur les problèmes hors distribution, sur les variations lexicales simples, sur les compositions nouvelles de concepts connus.
Implication pour les agents	Le raisonnement “from scratch” est absent. Le modèle reconnaît des solutions types mais ne les dérive pas.
Publications	Mittal et al. (2024), Dziri et al. (2023)

4.1.3 Temps Constant par Token

Aspect	Constat
Nature	Un LLM prend un temps essentiellement constant pour générer chaque token, indépendamment de la complexité logique requise.
Conséquence	Impossibilité de résoudre des problèmes dont la complexité varie (ex: recherche combinatoire, vérification logique).
Implication pour les agents	Les problèmes NP-complets ou semi-décidables ne peuvent pas être résolus par génération de tokens.
Publications	Kambhampati et al. (2024), Yedidia et al. (2024)

4.1.4 Reversal Curse

Aspect	Constat
Nature	Si le modèle a appris “A est le père de B”, il n’en déduit pas automatiquement “B est le fils de A”.
Conséquence	Les relations logiques ne sont pas représentées de manière bidirectionnelle.
Implication pour les agents	Le raisonnement symétrique ou inverse requiert une présence explicite dans les données.
Publications	Hui et al. (2024), Levy et al. (2024)

4.2 Limitations systémiques (inhérentes aux architectures agentiques)

4.2.1 Cascade d’erreurs

Aspect	Constat
Nature	Dans un système multi-agents ou multi-étapes, une erreur mineure d’un composant se propage et s’amplifie.
Fréquence	Critique — identifié comme cause majeure d’échec dans 80%+ des systèmes multi-agents.
Implication	La fiabilité d’une chaîne de N étapes est environ (fiabilité_étape)^N. Avec 90% par étape, 10 étapes donnent ~35% de fiabilité.
Publications	Lin et al. (2024), Cemri et al. (2025)

4.2.2 Dilution de responsabilité

Aspect	Constat
Nature	Dans les grands systèmes multi-agents, aucun agent n’est “responsable” du résultat final, ce qui crée des boucles d’attente.
Conséquence	Blocages, non-décisions, passage de responsabilité infini.
Publications	Li et al. (2024)

4.2.3 Homogénéité des erreurs

Aspect	Constat
Nature	Si tous les agents utilisent le même modèle de base (ou des modèles similaires), leurs erreurs sont corrélées.
Conséquence	Le vote majoritaire ou la vérification croisée ne corrige pas les biais systémiques partagés.
Publications	Schwartz et al. (2024), Pärnamaa et al. (2024)

4.2.4 Coût exponentiel

Aspect	Constat
Nature	Les architectures multi-agents consomment 5x à 500x plus de tokens pour des gains marginaux (<5%).
Conséquence	Non-viabilité économique pour la plupart des cas d’usage.
Publications	Bansal et al. (2024), Zhou et al. (2024)

4.3 Tableau récapitulatif : Mur de verre du scaling

Capacité	Impact du scaling	Plafond identifié
Connaissance factuelle	✅ Amélioration significative	Limité par exhaustion des données
Fluence linguistique	✅ Amélioration	Presque saturé
Cohérence stylistique	✅ Amélioration	Presque saturé
Raisonnement logique	⚠️ Amélioration marginale	~85-90% sur benchmarks contrôlés
Planification autonome	❌ Pas d’amélioration structurelle	Plafond architectural
Causalité	❌ Pas d’amélioration	Absent de l’architecture
Robustesse aux perturbations	❌ Pas d’amélioration	Fragilité intrinsèque
Auto-vérification	❌ Pas d’amélioration	Impossible par design

5. LISTE DES ILLUSIONS RÉCURRENTES

Cette section recense les patterns qui sont régulièrement présentés comme des capacités acquises mais qui sont, à l’analyse, des illusions ou des surinterprétations.

5.1 Illusion : L’agent “comprend” la tâche

Aspect	Réalité
Apparence	L’agent produit une réponse cohérente et pertinente.
Mécanisme réel	Pattern-matching sur des tâches similaires vues à l’entraînement.
Test de falsification	Modifier légèrement la formulation ou les noms des entités → effondrement.
Référence	Valmeekam et al. (2024) — PlanBench : renommage de variables.

5.2 Illusion : Le multi-agent est plus intelligent qu’un mono-agent

Aspect	Réalité
Apparence	Le système multi-agents résout des problèmes complexes.
Mécanisme réel	L’orchestrateur (code Python/JS) définit la logique réelle. Les agents sont des générateurs de texte dans un workflow prédéfini.
Test de falsification	Remplacer les appels LLM par des templates → résultats similaires sur tâches structurées.
Référence	Zhang et al. (2025) — 90% du succès dans l’orchestrateur.

5.3 Illusion : L’agent apprend de ses erreurs

Aspect	Réalité
Apparence	Après plusieurs tentatives, l’agent produit une réponse correcte.
Mécanisme réel	Le feedback externe (erreur compilateur, résultat test) guide la correction. Sans feedback, pas d’apprentissage.
Test de falsification	Supprimer le feedback externe → pas de convergence.
Référence	Huang et al. (2024), Shinn et al. (2023).

5.4 Illusion : Le débat améliore la précision

Aspect	Réalité
Apparence	Après discussion entre agents, la réponse finale est meilleure.
Mécanisme réel	Si la réponse correcte est dans les données d’entraînement, le débat peut la faire “remonter”. Sinon, consensus sur une erreur.
Test de falsification	Tester sur des problèmes réellement nouveaux → pas d’amélioration.
Référence	Liang et al. (2023), Du et al. (2024).

5.5 Illusion : Les capacités émergent avec le scaling

Aspect	Réalité
Apparence	À partir d’une certaine taille, le modèle “acquiert” soudainement une capacité.
Mécanisme réel	Artefact du choix de métrique (binaire vs continue). Les courbes continues montrent une amélioration graduelle, pas de saut.
Test de falsification	Utiliser des métriques continues → disparition du “saut”.
Référence	Schaeffer et al. (2023).

5.6 Illusion : L’agent est autonome

Aspect	Réalité
Apparence	L’agent accomplit une tâche “de bout en bout”.
Mécanisme réel	Le prompt engineer a optimisé les instructions. Les cas d’échec sont filtrés dans les démos. Un humain valide en coulisses.
Test de falsification	Déployer sans supervision → taux d’échec 40-87% (Cemri et al., 2025).
Référence	Horton (2023), Luo et al. (2024).

5.7 Illusion : Le RAG “comprend” les documents

Aspect	Réalité
Apparence	L’agent répond correctement en citant des sources.
Mécanisme réel	Similarité vectorielle + génération conditionnée. Pas de compréhension logique du document.
Test de falsification	Insérer des informations contradictoires → l’agent les cite sans les réconcilier.
Référence	Pradeep et al. (2024), Liu et al. (2024).

5.8 Illusion : L’agent planifie

Aspect	Réalité
Apparence	L’agent produit une séquence d’étapes qui ressemble à un plan.
Mécanisme réel	Complétion de texte dans le format d’un plan. Pas de vérification de validité, pas de simulation.
Test de falsification	Demander un plan pour un domaine inventé → plan “cohérent” mais irréalisable.
Référence	Kambhampati et al. (2024).

6. PRINCIPES DE DESIGN RÉALISTES

6.1 Principe 1 : Boucle fermée obligatoire

Un agent ne peut améliorer sa performance que si un vérificateur externe et déterministe fournit un feedback exploitable.

Implémentation :

Toujours coupler l’agent avec un compilateur, un interpréteur, un test automatisé ou un simulateur.
Le feedback doit être binaire (succès/échec) ou contenir une information d’erreur structurée.
Ne jamais compter sur l’auto-évaluation de l’agent.

Exemples viables :

Code + Tests unitaires automatisés
SQL + Validation de schéma
Robot + Simulateur physique

6.2 Principe 2 : Scope limité et explicite

Chaque agent doit opérer dans un domaine étroit, bien défini, où ses patterns sont surreprésentés dans les données d’entraînement.

Implémentation :

Définir explicitement les limites du domaine d’action.
Refuser les tâches hors domaine plutôt que de tenter une généralisation.
Utiliser plusieurs agents spécialisés plutôt qu’un agent “généraliste”.

Anti-pattern à éviter :

“Agent universel” qui fait tout
Prompt vague du type “Résous ce problème”

6.3 Principe 3 : Orchestration explicite

Dans un système multi-agents, toute la logique de coordination doit être dans l’orchestrateur (code), pas dans les prompts.

Implémentation :

Le flux de travail est défini en code (Python, etc.), pas en langage naturel.
Les transitions entre états sont déterministes.
Les agents sont des “fonctions” appelées par l’orchestrateur, pas des entités autonomes.

Corollaire :

Le “multi-agent” est souvent un workflow déguisé. Assumer cette réalité plutôt que de la masquer.

6.4 Principe 4 : Supervision humaine au-delà de 85%

Pour atteindre une fiabilité supérieure à 85-90%, investir dans la supervision humaine, pas dans l’augmentation du modèle.

Implémentation :

Définir des checkpoints où un humain valide les décisions critiques.
Prévoir un mode “escalade” vers un opérateur humain.
Mesurer le vrai coût (humain + compute) et non juste le coût API.

Réalité économique :

Le coût de la supervision humaine pour les derniers 10% est souvent inférieur au coût d’une architecture complexe qui échoue de manière imprévisible.

6.5 Principe 5 : Documentation des dépendances cachées

Tout système présenté comme “autonome” doit expliciter ses dépendances humaines implicites.

Checklist obligatoire :

Qui a écrit et optimisé les prompts ?
Qui sélectionne les exemples few-shot ?
Qui valide les résultats en démo ?
Quels cas d’échec sont filtrés des métriques ?
Quelle intervention humaine est nécessaire en production ?

6.6 Principe 6 : Métriques réalistes

Mesurer la performance en conditions réelles, pas sur des benchmarks contaminés.

Implémentation :

Utiliser des données de test vraiment inédites (post-training cutoff).
Inclure les coûts (tokens, latence, supervision humaine) dans les métriques.
Mesurer la robustesse aux perturbations, pas juste la performance nominale.

Métriques à éviter :

Accuracy sur benchmark public (contamination)
“Success rate” sans définition du succès
Comparaisons cherry-picked

6.7 Tableau récapitulatif : Ce qui fonctionne vs. Ce qui ne fonctionne pas

✅ Fonctionne	❌ Ne fonctionne pas
Génération de code avec tests automatisés	Génération de code sans validation
Traduction entre langages formels	Raisonnement logique “from scratch”
Complétion dans un domaine étroit	Agent universel
RAG avec sources vérifiables	RAG sans vérification de pertinence
Orchestration codée explicitement	Coordination émergente
Self-debugging avec compilateur	Auto-correction sans feedback
Extraction structurée vers schéma défini	Compréhension “profonde” de documents

7. CORPUS BIBLIOGRAPHIQUE DE RÉFÉRENCE

7.1 Publications clés (Top 20)

#	Référence	Catégorie	Contribution principale
1	Kambhampati et al. (2024) - “LLMs Can’t Plan”	C	Preuve formelle de l’incapacité des LLM à planifier de manière autonome. Framework LLM-Modulo.
2	Cemri et al. (2025) - “Why Do Multi-Agent LLM Systems Fail?”	D	Taxonomie MAST : 14 modes d’échec, 1600+ traces annotées, taux d’échec 41-87%.
3	Valmeekam et al. (2023-2025) - Série PlanBench	D	Benchmark montrant l’effondrement des performances avec perturbations lexicales.
4	Schaeffer et al. (2023) - “Emergence or Metrics?”	C	Démonstration que les capacités “émergentes” sont des artefacts métriques.
5	Huang et al. (2024) - “Self-Correction Fallacy”	C	Preuve que l’auto-correction sans feedback externe est illusoire.
6	Dziri et al. (2023) - “Faith and Fate”	C	Le raisonnement multi-étapes s’effondre par recherche probabiliste, pas calcul.
7	Madaan et al. (2023) - “Self-Refine”	B	Conditions de succès de l’auto-amélioration : feedback externe requis.
8	Shinn et al. (2023) - “Reflexion”	B	Amélioration uniquement avec évaluateur déterministe.
9	Liang et al. (2023) - Multi-agent Debate	D	Le débat n’améliore que si la solution est mémorisée.
10	Park et al. (2023) - “Generative Agents”	A/B	Architecture mémoire/planification viable pour simulation narrative, pas résolution de problèmes.
11	Yao et al. (2023) - “ReAct”	A	Couplage raisonnement-action efficace mais sensible au bruit du feedback.
12	Schick et al. (2023) - “Toolformer”	A	Démonstration que l’utilisation d’outils est possible mais reste complétion de texte.
13	Wu et al. (2023) - “AutoGen”	B	Coordination pour tâches scriptées, échec sur l’imprévu sémantique.
14	Zhou et al. (2024) - “Code-as-Policy”	B	Supériorité des approches déterministes sur le raisonnement LLM pur.
15	Stechly et al. (2024) - “Backtracking Failure”	D	Impossibilité de retour en arrière systémique.
16	Gandhi et al. (2024) - “Theory of Mind Gap”	C	Les agents échouent à modéliser les croyances des autres agents.
17	Liu et al. (2023) - “Lost in the Middle”	C	Effondrement de l’utilisation d’outils avec contexte long.
18	Toyer et al. (2024) - “Tensor Trust”	D	Facilité de contournement des défenses par jailbreak sémantique.
19	Greshake et al. (2024) - “Indirect Injection”	C	Vulnérabilité aux instructions cachées dans le contenu tiers.
20	Kaplan et al. (2024) - “Revised Scaling Laws”	B	Le coût marginal d’amélioration du raisonnement devient prohibitif.

7.2 Classification détaillée des sources

Catégorie A : Capacité démontrée et robuste

Référence	Ce qui est démontré	Conditions de validité
Yao et al. (2023) - ReAct	Couplage pensée-action sur tâches web	Feedback exploitable, domaine limité
Schick et al. (2023) - Toolformer	Apprentissage autonome d’utilisation d’API	API bien documentées, tâches simples
Rozière et al. (2023) - CodeLlama	Complétion de code de haute qualité	Langages populaires, contexte local
Zheng et al. (2024) Zheng et al. (2024) - Tests unitaires	Génération de tests avec boucle Pytest	Feedback déterministe du framework

Catégorie B : Capacité conditionnelle / fragile

Référence	Ce qui fonctionne partiellement	Point de fragilité
Madaan et al. (2023) - Self-Refine	Amélioration itérative avec feedback	Sans feedback externe : échec
Shinn et al. (2023) - Reflexion	Apprentissage par réflexion	Nécessite évaluateur déterministe
Park et al. (2023) - Generative Agents	Simulation sociale cohérente	Échoue sur résolution de problèmes
Wu et al. (2023) - AutoGen	Coordination multi-agents scriptée	Échoue sur l’imprévu
Zhou et al. (2024) - Code-as-Policy	Exécution de plans en code	Limité aux domaines codifiables

Catégorie C : Limitation structurelle identifiée

Référence	Limitation identifiée	Implication
Kambhampati et al. (2024)	LLM ne peuvent pas planifier	Nécessité de vérificateur externe
Schaeffer et al. (2023)	Émergence est artefact métrique	Pas de saut qualitatif réel
Huang et al. (2024)	Auto-correction illusoire	Feedback externe obligatoire
Dziri et al. (2023)	Raisonnement = recherche probabiliste	Pas de calcul logique
Liu et al. (2023)	Lost in the Middle	Contexte long dégrade performance
Gandhi et al. (2024)	Pas de Theory of Mind	Coordination inter-agents limitée
Greshake et al. (2024)	Injection indirecte	Vulnérabilité structurelle

Catégorie D : Échec documenté

Référence	Échec documenté	Taux d’échec
Cemri et al. (2025) - MAST	Systèmes multi-agents	41-87%
Valmeekam et al. (2023-2025)	Planification avec perturbations	~90% de chute
Stechly et al. (2024)	Backtracking	Systématique
Liang et al. (2023)	Débat sur problèmes nouveaux	Pas d’amélioration
Toyer et al. (2024)	Défenses de sécurité	Contournables

Catégorie E : Promesse prématurée / surinterprétation

Référence	Promesse	Réalité
Zhu et al. (2025)	Capacités émergentes	Optimisation métrique
Gudibande et al. (2024)	Distillation préserve logique	Copie le style, pas la logique
Talebirad et al. (2024)	Coopération émergente	Répétition de patterns de politesse
Marcus et al. (2024)	Scaling comble le gap neuro-symbolique	Limites architecturales

7.3 Mapping publications ↔ patterns

Pattern	Publications de référence
Planification autonome	Kambhampati (2024), Valmeekam (2023-2025), Stechly (2024)
Auto-correction	Huang (2024), Madaan (2023), Shinn (2023), Liu (2024)
Multi-agent debate	Liang (2023), Du (2024), Gandhi (2024)
Coordination multi-agents	Cemri (2025), Zhang (2025), Li (2024), Nguyen (2024)
Capacités émergentes	Schaeffer (2023), Zhu (2025), Gudibande (2024)
Tool-use	Yao (2023), Schick (2023), Patil (2023), Qin (2024)
Mémoire long-terme	Liu (2023)
Sécurité agents	Greshake (2024), Toyer (2024)

7.4 Zones sans preuves identifiées

Les domaines suivants manquent de preuves empiriques robustes malgré des affirmations fréquentes :

Domaine	Affirmation courante	Statut des preuves
Raisonnement causal	”Le modèle comprend les relations causales”	Aucune preuve positive
Créativité authentique	”Le modèle génère des idées vraiment nouvelles”	Non falsifiable avec métriques actuelles
Compréhension profonde	”Le modèle comprend le sens du texte”	Opérationnellement indistinguable du pattern-matching
Apprentissage continu	”L’agent s’améliore avec l’expérience”	Accumulation, pas généralisation
Conscience de soi	”Le modèle sait ce qu’il ne sait pas”	Calibration imparfaite, pas métacognition

8. ANNEXES

8.1 Checklist d’évaluation de pattern

Pour tout pattern agentique présenté, appliquer cette checklist :

□ 1. Le pattern reste-t-il valide si le prompt est réduit à l'essentiel ?
□ 2. Fonctionne-t-il sans intervention humaine implicite ?
□ 3. Résiste-t-il à du bruit ou de l'ambiguïté dans l'entrée ?
□ 4. Tient-il dans la durée (au-delà d'une session courte) ?
□ 5. Reste-t-il valide lorsque plusieurs instances du même modèle interagissent ?
□ 6. Les résultats sont-ils reproductibles avec d'autres modèles de même classe ?
□ 7. Le benchmark utilisé est-il exempt de contamination ?
□ 8. Les métriques capturent-elles le succès réel de la tâche ?
□ 9. Le coût total (tokens, latence, supervision) est-il viable ?
□ 10. Les dépendances humaines sont-elles explicitement documentées ?

VERDICT :
- 10/10 → Capacité démontrée robuste (rare)
- 7-9/10 → Capacité conditionnelle (documenter les conditions)
- 4-6/10 → Pattern fragile (ne pas promettre en production)
- 0-3/10 → Illusion ou promesse prématurée

8.2 Glossaire technique

Terme	Définition opérationnelle
Agent	Système logiciel combinant un LLM avec une boucle perception-raisonnement-action
Orchestrateur	Code (non-LLM) qui définit le flux de travail et coordonne les agents
Scaling	Augmentation de paramètres, données ou compute
Émergence	Apparition de capacités qualitativement nouvelles (sujet à controverse)
Pattern-matching	Identification de similarités avec des données d’entraînement
World model	Représentation interne explicite de l’état du monde et de sa dynamique
Feedback loop	Cycle où l’output d’une action est utilisé pour modifier l’action suivante
Ground truth	Valeur correcte de référence pour évaluer une prédiction
Contamination	Présence de données de test dans les données d’entraînement
Sycophancy	Tendance à modifier sa réponse pour satisfaire l’interlocuteur

8.3 Références bibliographiques complètes

Publications académiques

Kambhampati, S., Valmeekam, K., Guan, L., et al. (2024). “LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks.” Proceedings of ICML 2024, 235
.
Cemri, M., Pan, M. Z., Yang, S., et al. (2025). “Why Do Multi-Agent LLM Systems Fail?” arXiv
.13657.
Valmeekam, K., Marquez, M., Sreedharan, S., & Kambhampati, S. (2023). “On the Planning Abilities of Large Language Models—A Critical Investigation.” NeurIPS 2023.
Schaeffer, R., Miranda, B., & Koyejo, S. (2023). “Are Emergent Abilities of Large Language Models a Mirage?” NeurIPS 2023.
Huang, J., Shao, Z., et al. (2024). “Large Language Models Cannot Self-Correct Reasoning Yet.” ICLR 2024.
Dziri, N., Lu, X., Sclar, M., et al. (2023). “Faith and Fate: Limits of Transformers on Compositionality.” NeurIPS 2023.
Madaan, A., Tandon, N., et al. (2023). “Self-Refine: Iterative Refinement with Self-Feedback.” NeurIPS 2023.
Shinn, N., Cassano, F., et al. (2023). “Reflexion: Language Agents with Verbal Reinforcement Learning.” NeurIPS 2023.
Yao, S., Zhao, J., et al. (2023). “ReAct: Synergizing Reasoning and Acting in Language Models.” ICLR 2023.
Park, J. S., O’Brien, J., et al. (2023). “Generative Agents: Interactive Simulacra of Human Behavior.” UIST 2023.
Liang, T., He, Z., et al. (2023). “Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate.” arXiv
.19118.
Gandhi, K., et al. (2024). “Understanding Social Reasoning in Language Models with Language Models.” NeurIPS 2024.
Liu, N. F., Lin, K., et al. (2023). “Lost in the Middle: How Language Models Use Long Contexts.” TACL 2024.
Greshake, K., et al. (2024). “Not What You’ve Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection.” AISec 2023.
Stechly, K., Marquez, M., & Kambhampati, S. (2024). “GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems.” NeurIPS FM4DM Workshop.

9. CONCLUSION

Cette méta-analyse établit un cadre critique pour évaluer les capacités réelles des agents IA basés sur des LLM. Les constats principaux sont :

Les limitations sont structurelles, pas conjoncturelles : L’architecture auto-régressive des LLM impose des plafonds de performance que le scaling seul ne peut dépasser.
Le multi-agent n’est pas une solution aux limitations du mono-agent : Les systèmes multi-agents héritent des limitations de leurs composants et ajoutent des modes d’échec propres (coordination, cascade d’erreurs).
L’autonomie est une illusion soigneusement entretenue : Les systèmes “autonomes” dépendent de prompts optimisés, d’orchestrateurs codés et de supervision humaine implicite.
Les succès réels sont dans les domaines à feedback déterministe : Code avec tests, SQL avec validation, robotique avec simulateur — les boucles fermées fonctionnent.
La fiabilité au-delà de 85-90% nécessite l’humain : Pour les cas critiques, la supervision humaine reste plus efficace et économique que l’augmentation architecturale.

Cette analyse ne vise pas à décourager le développement d’agents IA, mais à établir des attentes réalistes et des principes de design robustes. Les agents IA sont des outils puissants lorsqu’ils sont utilisés dans leurs domaines de validité, avec une conscience claire de leurs limitations.

Pour aller plus loin

Guide de Conception d’Agents IA : Ce qui Fonctionne, Ce qui Échoue — Synthèse pratique avec arbres de décision et matrices d’évaluation
Construire un Agent : L’Art d’Assembler les Bonnes Briques — Langages, orchestration, modèles, télémétrie, storage et runtime
Les 11 Patterns d’Orchestration Multi-Agents — Pipeline, Supervisor, Swarm, Council : guide pratique avec cas d’usage
Agent Skills : Le Manuel d’Onboarding — Structurer les instructions pour des agents spécialisés

Fin du document

Analyse : Capacités, Limitations et Patterns Prématurés des Agents IA

Agents mono et multi-agents basés sur des LLM

1. Introduction

1.1 Objectif de l’analyse

1.2 Périmètre

1.3 Définitions opérationnelles

1.4 Synthèse des conclusions principales

Constats critiques

Patterns viables vs. patterns prématurés

1.5 Recommandations de design

2. TABLEAU SYNTHÉTIQUE DES PATTERNS ANALYSÉS

Légende des catégories

2.1 Patterns de planification et raisonnement

2.2 Patterns multi-agents

2.3 Patterns mémoire et contexte

2.4 Patterns outils et exécution

2.5 Patterns de scaling

3. ANALYSE DÉTAILLÉE DES PATTERNS CRITIQUES

3.1 Pattern : Planification Autonome

Grille d’analyse complète

Publications de référence

3.2 Pattern : Systèmes Multi-Agents avec Débat

Grille d’analyse complète

Publications de référence

3.3 Pattern : Auto-Correction / Self-Refinement

Grille d’analyse complète

Publications de référence

3.4 Pattern : Capacités Émergentes par Scaling

Grille d’analyse complète

Publications de référence

3.5 Pattern : Coordination Multi-Agents Autonome

Grille d’analyse complète

Publications de référence

4. SYNTHÈSE TRANSVERSALE DES LIMITATIONS

4.1 Limitations structurelles (inhérentes aux LLM)

4.1.1 Absence de World Model

4.1.2 Raisonnement comme Pattern-Matching

4.1.3 Temps Constant par Token

4.1.4 Reversal Curse

4.2 Limitations systémiques (inhérentes aux architectures agentiques)

4.2.1 Cascade d’erreurs

4.2.2 Dilution de responsabilité

4.2.3 Homogénéité des erreurs

4.2.4 Coût exponentiel

4.3 Tableau récapitulatif : Mur de verre du scaling

5. LISTE DES ILLUSIONS RÉCURRENTES

5.1 Illusion : L’agent “comprend” la tâche

5.2 Illusion : Le multi-agent est plus intelligent qu’un mono-agent

5.3 Illusion : L’agent apprend de ses erreurs

5.4 Illusion : Le débat améliore la précision

5.5 Illusion : Les capacités émergent avec le scaling

5.6 Illusion : L’agent est autonome

5.7 Illusion : Le RAG “comprend” les documents

5.8 Illusion : L’agent planifie

6. PRINCIPES DE DESIGN RÉALISTES

6.1 Principe 1 : Boucle fermée obligatoire

6.2 Principe 2 : Scope limité et explicite

6.3 Principe 3 : Orchestration explicite

6.4 Principe 4 : Supervision humaine au-delà de 85%

6.5 Principe 5 : Documentation des dépendances cachées

6.6 Principe 6 : Métriques réalistes

6.7 Tableau récapitulatif : Ce qui fonctionne vs. Ce qui ne fonctionne pas

7. CORPUS BIBLIOGRAPHIQUE DE RÉFÉRENCE

7.1 Publications clés (Top 20)

7.2 Classification détaillée des sources

Catégorie A : Capacité démontrée et robuste

Catégorie B : Capacité conditionnelle / fragile

Catégorie C : Limitation structurelle identifiée

Catégorie D : Échec documenté

Catégorie E : Promesse prématurée / surinterprétation

7.3 Mapping publications ↔ patterns

7.4 Zones sans preuves identifiées

8. ANNEXES

8.1 Checklist d’évaluation de pattern

8.2 Glossaire technique

8.3 Références bibliographiques complètes

Publications académiques

9. CONCLUSION

Pour aller plus loin