
Articles connexes : Guide pratique de conception d’agents IA | Les briques fondamentales pour construire un agent | Les 11 patterns d’orchestration multi-agents
Agents mono et multi-agents basés sur des LLM
Version : 1.0
Date : Janvier 2026
Méthodologie : Analyse systématique basée sur publications empiriques (2023-2025)
1. Introduction
1.1 Objectif de l’analyse
Cette analyse identifie, classifie et évalue les patterns liés aux agents IA basés sur des LLM (Large Language Models) qui paraissent prometteurs mais dont la réalisabilité reste structurellement limitée avec les architectures actuelles. L’objectif est de fournir un cadre critique, falsifiable et non spéculatif pour évaluer les capacités réelles des systèmes agentiques.
1.2 Périmètre
Inclus :
- Agents basés sur des LLM (GPT-4, Claude, Llama, etc.)
- Architectures mono-agent et multi-agents
- Systèmes d’orchestration, mémoire, outils et supervision
- Cas observables et reproductibles documentés dans la littérature
Exclu strictement :
- Intelligence Générale Artificielle (AGI) spéculative
- Affirmations marketing sans données empiriques
- Descriptions anthropomorphiques des capacités
- Hypothèses non testables
1.3 Définitions opérationnelles
Agent IA : Système basé sur un LLM capable de percevoir un état, produire du raisonnement local (génération de tokens) et déclencher des actions via une orchestration explicite (code, API, outils).
Système Multi-agents : Ensemble d’agents coordonnés par un protocole explicite. Le multi-agents n’implique aucune intelligence collective émergente par défaut ; toute apparence de coordination supérieure provient de l’orchestrateur ou du protocole de communication.
Scaling : Augmentation des paramètres du modèle, des données d’entraînement ou du compute d’inférence.
1.4 Synthèse des conclusions principales
Constats critiques
- Le scaling ne résout pas les limitations structurelles : L’augmentation de la taille des modèles améliore la connaissance factuelle et la fluence linguistique, mais ne corrige pas l’absence de planification autonome, de raisonnement causal ou de compréhension logique profonde (Kambhampati et al., 2024; Valmeekam et al., 2025).
- Les systèmes multi-agents échouent dans 41-87% des cas : L’étude MAST (Cemri et al., 2025) identifie 14 modes d’échec distincts, dont 79% proviennent de problèmes de spécification et de coordination, non de limitations techniques d’infrastructure.
- L’auto-correction sans feedback externe est illusoire : Les agents ne peuvent pas détecter leurs propres erreurs sans vérificateur externe déterministe (compilateur, test, oracle). L’auto-critique augmente la confiance sans améliorer la précision (Huang et al., 2024; Stechly et al., 2024).
- Le multi-agent ne surpasse pas le mono-agent sur la majorité des benchmarks : Les gains de performance sont marginaux et souvent inférieurs à des approches simples comme le best-of-N sampling (Kapoor et al., 2024; Wang et al., 2024).
- Les “capacités émergentes” sont des artefacts métriques : Les sauts qualitatifs apparents lors du scaling résultent de choix de métriques non-linéaires, non de réelles transitions de phase cognitive (Schaeffer et al., 2023).
Patterns viables vs. patterns prématurés
| Catégorie | Viabilité | Exemples |
|---|
| Fonctionnel | Tâches où le feedback est déterministe | Tests unitaires, traduction code, SQL |
| Fragile | Dépendance à des prompts spécifiques | RAG, self-consistency, ReAct |
| Prématuré | Promesse sans preuve de robustesse | Agent universel, planification autonome |
| Structurellement impossible | Contradiction avec l’architecture | Auto-vérification, raisonnement causal intrinsèque |
1.5 Recommandations de design
- Privilégier les boucles fermées : Le succès agentique nécessite un vérificateur externe déterministe (compilateur, simulateur, test automatisé).
- Limiter le scope par agent : Les agents performants opèrent dans des domaines étroits et bien définis, non en “généralistes”.
- Traiter le multi-agent comme orchestration, non comme intelligence collective : Le “locus de décision” réel est l’orchestrateur (souvent du code Python), pas les agents eux-mêmes.
- Assumer 85-90% comme plafond de fiabilité : Pour les derniers 10%, investir dans la supervision humaine plutôt que dans l’augmentation du modèle.
- Documenter les dépendances cachées : Tout système “autonome” doit expliciter ses dépendances humaines implicites (prompt engineering, sélection de données, validation).
2. TABLEAU SYNTHÉTIQUE DES PATTERNS ANALYSÉS
Légende des catégories
| Code | Signification |
|---|
| A | Capacité démontrée et robuste |
| B | Capacité conditionnelle / fragile |
| C | Limitation structurelle identifiée |
| D | Échec documenté |
| E | Promesse prématurée / surinterprétation |
2.1 Patterns de planification et raisonnement
| # | Pattern | Type | Catégorie | Verdict |
|---|
| 1 | Planification autonome | Mono | C/D | Structurellement impossible |
| 2 | Auto-vérification | Mono | C | Structurellement impossible |
| 3 | Raisonnement causal | Mono | C | Prématuré |
| 4 | Chain-of-Thought | Mono | B | Fragile |
| 5 | Backtracking automatique | Mono | D | Structurellement impossible |
| 6 | Réflexion itérative | Mono | B/C | Fragile |
| 7 | Self-Consistency | Mono | B | Réalisable avec réserves |
| 8 | Tree-of-Thought | Mono | B | Fragile |
2.2 Patterns multi-agents
| # | Pattern | Type | Catégorie | Verdict |
|---|
| 9 | Débat multi-agents | Multi | D/E | Prématuré |
| 10 | Intelligence collective émergente | Multi | E | Illusion |
| 11 | Spécialisation par rôle | Multi | B/C | Fragile |
| 12 | Coordination autonome | Multi | D | Prématuré |
| 13 | Auto-organisation | Multi | D | Structurellement impossible |
| 14 | Vérification croisée | Multi | C/D | Fragile |
| 15 | Consensus multi-agents | Multi | D | Illusion |
2.3 Patterns mémoire et contexte
| # | Pattern | Type | Catégorie | Verdict |
|---|
| 16 | Mémoire long-terme autonome | Mono/Multi | C | Prématuré |
| 17 | RAG (Retrieval-Augmented) | Mono | A/B | Réalisable avec réserves |
| 18 | Contexte étendu (>100k tokens) | Mono | B/C | Fragile |
| 19 | Mise à jour de mémoire autonome | Mono | D | Prématuré |
2.4 Patterns outils et exécution
| # | Pattern | Type | Catégorie | Verdict |
|---|
| 20 | Tool-use simple | Mono | A | Réalisable |
| 21 | Tool-use séquentiel (>3 outils) | Mono | B/C | Fragile |
| 22 | Self-debugging avec compilateur | Mono | A/B | Réalisable |
| 23 | Code-as-Policy | Mono | A | Réalisable |
| 24 | Utilisation d’outils inconnus | Mono | D | Prématuré |
2.5 Patterns de scaling
| # | Pattern | Type | Catégorie | Verdict |
|---|
| 25 | Scaling améliore le raisonnement | - | E | Surinterprétation |
| 26 | Émergence par scaling | - | E | Artefact métrique |
| 27 | Agent universel par scaling | - | E | Illusion |
| 28 | Fiabilité par redondance | Multi | D | Fragile |
3. ANALYSE DÉTAILLÉE DES PATTERNS CRITIQUES
3.1 Pattern : Planification Autonome
Grille d’analyse complète
| Champ | Contenu |
|---|
| 1. Nom du pattern | Planification Autonome |
| 2. Type | Mono-agent |
| 3. Promesse implicite perçue | Un agent LLM peut décomposer un objectif complexe en sous-étapes, ordonnancer ces étapes et les exécuter de manière autonome jusqu’à l’atteinte de l’objectif. |
| 4. Hypothèse technique sous-jacente | Le modèle a internalisé, via l’entraînement sur du texte humain, des représentations suffisantes de la causalité et de la logique séquentielle pour générer des plans valides. |
| 5. Conditions nécessaires | (a) Capacité de prédiction des effets d’actions, (b) Capacité de backtracking en cas d’impasse, (c) Maintien d’un modèle du monde cohérent, (d) Distinction entre état actuel et état cible. |
| 6. Ce qui fonctionne réellement | Le modèle peut générer des séquences d’actions qui ressemblent à des plans valides sur des domaines fréquents dans les données d’entraînement. La forme textuelle d’un plan est souvent correcte. |
| 7. Limitations structurelles (LLM) | Les LLM sont des systèmes auto-régressifs à temps constant par token. Ils ne peuvent pas effectuer de recherche dans un espace d’états. La génération de token n’est pas conditionnée par la vérification de validité logique. |
| 8. Limitations systémiques | Aucun mécanisme de vérification interne de la cohérence du plan. Pas de représentation explicite des préconditions et effets des actions. |
| 9. Modes d’échec typiques | Plans invalides (actions impossibles dans l’état actuel), plans incomplets (sous-objectifs oubliés), absence de récupération en cas d’échec d’une étape, dépendance circulaire entre étapes. |
| 10. Dépendances cachées | Le prompt contient souvent des exemples de plans valides (few-shot). L’humain valide implicitement la faisabilité du plan. Les domaines testés sont surreprésentés dans les données. |
| 11. Test de robustesse | ❌ Prompt minimal : échoue. ❌ Sans intervention humaine : échoue. ❌ Avec bruit/ambiguïté : échoue. ❌ Durée longue : échoue. ❌ Multi-instances même modèle : non applicable. |
| 12. Verdict | Structurellement impossible — Le planning autonome contredit l’architecture fondamentale des LLM auto-régressifs. |
Publications de référence
- Kambhampati et al. (2024) — “LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks” — ICML 2024. Démontre formellement que les LLM auto-régressifs ne peuvent pas planifier par eux-mêmes.
- Valmeekam et al. (2023) — Série PlanBench. Montre que les performances de planification s’effondrent avec de simples renommages de variables.
- Stechly et al. (2024) — Analyse de l’échec du backtracking.
3.2 Pattern : Systèmes Multi-Agents avec Débat
Grille d’analyse complète
| Champ | Contenu |
|---|
| 1. Nom du pattern | Multi-Agent Debate / Discussion |
| 2. Type | Multi-agents |
| 3. Promesse implicite perçue | Plusieurs agents LLM, en confrontant leurs réponses, corrigent mutuellement leurs erreurs et convergent vers une réponse plus précise que celle d’un agent unique. |
| 4. Hypothèse technique sous-jacente | La diversité des réponses + un mécanisme d’arbitrage permet de filtrer les erreurs individuelles (similaire au bagging en ML ou au vote majoritaire). |
| 5. Conditions nécessaires | (a) Indépendance des erreurs entre agents, (b) Capacité de critique constructive, (c) Capacité de distinguer un argument valide d’un argument persuasif, (d) Absence de biais systémique partagé. |
| 6. Ce qui fonctionne réellement | Le débat améliore les résultats uniquement lorsque la réponse correcte est déjà “accessible” via les données d’entraînement (mémorisation distribuée). |
| 7. Limitations structurelles (LLM) | Tous les agents utilisent le même modèle ou des modèles similaires (homogénéité). Les erreurs sont corrélées, pas indépendantes. Le biais de conformité pousse les agents à s’aligner sur la première réponse. |
| 8. Limitations systémiques | Pas de mécanisme de vérité objective. L’agent le plus “persuasif” (verbeux, confiant) l’emporte, pas le plus “correct”. L’absence de ground-truth empêche la convergence vers la vérité. |
| 9. Modes d’échec typiques | Consensus sur une réponse fausse (echo chamber). Amplification des erreurs via validation mutuelle. Boucles de discussion infinies sans convergence. Agent “dominant” qui impose sa réponse. |
| 10. Dépendances cachées | L’orchestrateur définit les règles du débat (qui parle quand, critères de fin). Le prompt initial cadre le débat. Un humain sélectionne souvent la réponse finale. |
| 11. Test de robustesse | ❌ Prompt minimal : échoue. ❌ Sans intervention humaine : échoue. ❌ Avec bruit/ambiguïté : échoue sévèrement. ⚠️ Durée longue : dégradation. ❌ Multi-instances même modèle : exacerbe les problèmes. |
| 12. Verdict | Prématuré / Illusion — Le débat multi-agents n’apporte pas d’intelligence collective réelle. |
Publications de référence
- Liang et al. (2023) — Montre que le débat n’améliore que si la solution est déjà dans les données.
- Du et al. (2024) — Social Contagion : l’agent verbeux l’emporte sur l’agent logique.
- Cemri et al. (2025) — MAST Framework : 36.94% des échecs multi-agents sont des problèmes de coordination.
- Gandhi et al. (2024) — Theory of Mind Gap : les agents échouent à modéliser les croyances des autres agents.
3.3 Pattern : Auto-Correction / Self-Refinement
Grille d’analyse complète
| Champ | Contenu |
|---|
| 1. Nom du pattern | Auto-Correction (Self-Refinement, Reflexion) |
| 2. Type | Mono-agent |
| 3. Promesse implicite perçue | Un agent peut détecter ses propres erreurs, les critiquer et les corriger de manière itérative jusqu’à produire une réponse valide. |
| 4. Hypothèse technique sous-jacente | Le modèle possède une “capacité méta-cognitive” lui permettant d’évaluer la qualité de ses propres outputs. |
| 5. Conditions nécessaires | (a) Capacité de détection d’erreur, (b) Capacité de diagnostic de la cause, (c) Capacité de génération d’une correction appropriée, (d) Critère d’arrêt fiable. |
| 6. Ce qui fonctionne réellement | L’auto-correction fonctionne si et seulement si un vérificateur externe fournit un feedback exploitable (ex: message d’erreur du compilateur, résultat de test automatisé). |
| 7. Limitations structurelles (LLM) | Le modèle utilise les mêmes poids pour générer et pour critiquer. Le biais de confirmation pousse à valider sa propre réponse. Pas de représentation distincte de “production” vs “évaluation”. |
| 8. Limitations systémiques | Sans signal externe, le modèle n’a aucun moyen de distinguer une réponse correcte d’une réponse incorrecte mais plausible. La “critique” générée est elle-même sujette aux mêmes biais. |
| 9. Modes d’échec typiques | Validation d’une réponse fausse comme correcte. Changement d’une réponse correcte vers une réponse incorrecte (sycophancy). Boucles infinies de “correction” sans amélioration. Critique sans action corrective. |
| 10. Dépendances cachées | La structure du prompt induit la “forme” de l’auto-critique. Les exemples few-shot montrent comment critiquer. L’humain valide souvent le résultat final. |
| 11. Test de robustesse | ❌ Prompt minimal : échoue. ❌ Sans intervention humaine : échoue massivement. ⚠️ Avec bruit : performance dégradée. ❌ Durée longue : dérive. ❌ Multi-instances même modèle : non applicable. |
| 12. Verdict | Structurellement impossible sans vérificateur externe — L’auto-vérification pure est une illusion. |
Publications de référence
3.4 Pattern : Capacités Émergentes par Scaling
Grille d’analyse complète
| Champ | Contenu |
|---|
| 1. Nom du pattern | Émergence par Scaling |
| 2. Type | Architecture (non spécifique agent) |
| 3. Promesse implicite perçue | En augmentant suffisamment la taille du modèle (paramètres, données, compute), des capacités qualitativement nouvelles “émergent” de manière discontinue. |
| 4. Hypothèse technique sous-jacente | Il existe des seuils critiques de complexité au-delà desquels le modèle acquiert des capacités de raisonnement, de planification ou de compréhension qui étaient absentes auparavant. |
| 5. Conditions nécessaires | (a) Existence réelle de transitions de phase, (b) Indépendance de l’observation par rapport aux métriques choisies, (c) Robustesse des capacités émergées. |
| 6. Ce qui fonctionne réellement | Le scaling améliore la fluence, la couverture factuelle, la cohérence stylistique et la réduction des hallucinations triviales. Les performances sur des benchmarks existants augmentent. |
| 7. Limitations structurelles (LLM) | Les “sauts” observés sont des artefacts de métriques non-linéaires (ex: “réussi/échoué” vs probabilité continue). Les capacités de raisonnement mesurées par des benchmarks spécifiques ne généralisent pas. |
| 8. Limitations systémiques | La contamination des benchmarks (présence dans les données d’entraînement) crée une illusion de capacité. Le scaling ne modifie pas l’architecture fondamentale (auto-régressive, pas de world model). |
| 9. Modes d’échec typiques | Régression sur des variantes simples des problèmes “maîtrisés”. Fragilité aux perturbations lexicales. Succès sur benchmark, échec en conditions réelles. |
| 10. Dépendances cachées | Le benchmark est sélectionné pour montrer le “saut”. Les métriques sont choisies post-hoc. Les comparaisons ignorent le coût (compute, données). |
| 11. Test de robustesse | ⚠️ Prompt minimal : variable. ⚠️ Sans intervention humaine : partiel. ❌ Avec perturbations : échec fréquent. ⚠️ Durée longue : stable sur recall factuel. ❌ Multi-instances même modèle : non applicable. |
| 12. Verdict | Surinterprétation / Artefact métrique — Les capacités “émergentes” sont des illusions statistiques. |
Publications de référence
- Schaeffer et al. (2023) — “Emergence or Metrics?” : démontre que l’émergence apparente résulte de choix métriques.
- Zhu et al. (2025) — Emergence Mirage : les capacités observées sont des optimisations métriques mal interprétées.
- Gudibande et al. (2024) — The Imitation Trap : la distillation copie le style, pas la logique.
3.5 Pattern : Coordination Multi-Agents Autonome
Grille d’analyse complète
| Champ | Contenu |
|---|
| 1. Nom du pattern | Coordination Multi-Agents Autonome |
| 2. Type | Multi-agents |
| 3. Promesse implicite perçue | Plusieurs agents peuvent se coordonner de manière autonome, se répartir les tâches et fusionner leurs résultats sans orchestration externe rigide. |
| 4. Hypothèse technique sous-jacente | Les agents développent des protocoles de communication implicites et des mécanismes de coordination via l’échange de messages en langage naturel. |
| 5. Conditions nécessaires | (a) Compréhension mutuelle des rôles, (b) Protocole de communication non-ambigu, (c) Détection et résolution de conflits, (d) Synchronisation d’état partagé. |
| 6. Ce qui fonctionne réellement | La coordination fonctionne lorsque l’orchestrateur (code externe) définit explicitement les flux, les rôles et les critères de transition. Le succès dépend du script, pas des agents. |
| 7. Limitations structurelles (LLM) | Absence de Theory of Mind fiable. Pas de représentation explicite de l’état des autres agents. Communication en langage naturel intrinsèquement ambiguë. |
| 8. Limitations systémiques | 80% des échanges inter-agents sont redondants (Zhang et al., 2024). Le passage d’information entre agents dégrade le signal (Information Bottleneck). Pas de mécanisme de “vérité partagée”. |
| 9. Modes d’échec typiques | Deadlock (chaque agent attend l’autre). Duplication de travail. Conflits de ressources non résolus. Perte d’information critique lors des transferts. Boucles infinies. |
| 10. Dépendances cachées | L’orchestrateur Python/JavaScript définit le flux réel. Les prompts spécifient rigidement les rôles. Un humain supervise les blocages. |
| 11. Test de robustesse | ❌ Prompt minimal : chaos. ❌ Sans intervention humaine : blocage ou boucle. ❌ Avec bruit/ambiguïté : effondrement. ❌ Durée longue : dérive sémantique. ❌ Multi-instances même modèle : biais amplifiés. |
| 12. Verdict | Prématuré / Structurellement limité — La coordination réelle est dans l’orchestrateur, pas dans les agents. |
Publications de référence
4. SYNTHÈSE TRANSVERSALE DES LIMITATIONS
4.1 Limitations structurelles (inhérentes aux LLM)
Ces limitations découlent directement de l’architecture des modèles de langage auto-régressifs et ne peuvent être résolues par scaling ou prompt engineering.
4.1.1 Absence de World Model
| Aspect | Constat |
|---|
| Nature | Les LLM ne maintiennent pas de représentation explicite de l’état du monde. Chaque token est prédit conditionnellement au contexte précédent, sans modèle causal sous-jacent. |
| Conséquence | Incapacité à prédire les effets d’actions, à simuler des états futurs ou à raisonner contrefactuellement. |
| Implication pour les agents | La “planification” observée est de la complétion de patterns textuels de plans, pas de la génération de plans valides. |
| Publications | Lopez-Paz et al. (2024), Kambhampati et al. (2024) |
4.1.2 Raisonnement comme Pattern-Matching
| Aspect | Constat |
|---|
| Nature | Ce qui apparaît comme du “raisonnement” est une interpolation probabiliste entre des patterns vus à l’entraînement. |
| Conséquence | Échec sur les problèmes hors distribution, sur les variations lexicales simples, sur les compositions nouvelles de concepts connus. |
| Implication pour les agents | Le raisonnement “from scratch” est absent. Le modèle reconnaît des solutions types mais ne les dérive pas. |
| Publications | Mittal et al. (2024), Dziri et al. (2023) |
4.1.3 Temps Constant par Token
| Aspect | Constat |
|---|
| Nature | Un LLM prend un temps essentiellement constant pour générer chaque token, indépendamment de la complexité logique requise. |
| Conséquence | Impossibilité de résoudre des problèmes dont la complexité varie (ex: recherche combinatoire, vérification logique). |
| Implication pour les agents | Les problèmes NP-complets ou semi-décidables ne peuvent pas être résolus par génération de tokens. |
| Publications | Kambhampati et al. (2024), Yedidia et al. (2024) |
4.1.4 Reversal Curse
| Aspect | Constat |
|---|
| Nature | Si le modèle a appris “A est le père de B”, il n’en déduit pas automatiquement “B est le fils de A”. |
| Conséquence | Les relations logiques ne sont pas représentées de manière bidirectionnelle. |
| Implication pour les agents | Le raisonnement symétrique ou inverse requiert une présence explicite dans les données. |
| Publications | Hui et al. (2024), Levy et al. (2024) |
4.2 Limitations systémiques (inhérentes aux architectures agentiques)
4.2.1 Cascade d’erreurs
| Aspect | Constat |
|---|
| Nature | Dans un système multi-agents ou multi-étapes, une erreur mineure d’un composant se propage et s’amplifie. |
| Fréquence | Critique — identifié comme cause majeure d’échec dans 80%+ des systèmes multi-agents. |
| Implication | La fiabilité d’une chaîne de N étapes est environ (fiabilité_étape)^N. Avec 90% par étape, 10 étapes donnent ~35% de fiabilité. |
| Publications | Lin et al. (2024), Cemri et al. (2025) |
4.2.2 Dilution de responsabilité
| Aspect | Constat |
|---|
| Nature | Dans les grands systèmes multi-agents, aucun agent n’est “responsable” du résultat final, ce qui crée des boucles d’attente. |
| Conséquence | Blocages, non-décisions, passage de responsabilité infini. |
| Publications | Li et al. (2024) |
4.2.3 Homogénéité des erreurs
| Aspect | Constat |
|---|
| Nature | Si tous les agents utilisent le même modèle de base (ou des modèles similaires), leurs erreurs sont corrélées. |
| Conséquence | Le vote majoritaire ou la vérification croisée ne corrige pas les biais systémiques partagés. |
| Publications | Schwartz et al. (2024), Pärnamaa et al. (2024) |
4.2.4 Coût exponentiel
| Aspect | Constat |
|---|
| Nature | Les architectures multi-agents consomment 5x à 500x plus de tokens pour des gains marginaux (<5%). |
| Conséquence | Non-viabilité économique pour la plupart des cas d’usage. |
| Publications | Bansal et al. (2024), Zhou et al. (2024) |
4.3 Tableau récapitulatif : Mur de verre du scaling
| Capacité | Impact du scaling | Plafond identifié |
|---|
| Connaissance factuelle | ✅ Amélioration significative | Limité par exhaustion des données |
| Fluence linguistique | ✅ Amélioration | Presque saturé |
| Cohérence stylistique | ✅ Amélioration | Presque saturé |
| Raisonnement logique | ⚠️ Amélioration marginale | ~85-90% sur benchmarks contrôlés |
| Planification autonome | ❌ Pas d’amélioration structurelle | Plafond architectural |
| Causalité | ❌ Pas d’amélioration | Absent de l’architecture |
| Robustesse aux perturbations | ❌ Pas d’amélioration | Fragilité intrinsèque |
| Auto-vérification | ❌ Pas d’amélioration | Impossible par design |
5. LISTE DES ILLUSIONS RÉCURRENTES
Cette section recense les patterns qui sont régulièrement présentés comme des capacités acquises mais qui sont, à l’analyse, des illusions ou des surinterprétations.
5.1 Illusion : L’agent “comprend” la tâche
| Aspect | Réalité |
|---|
| Apparence | L’agent produit une réponse cohérente et pertinente. |
| Mécanisme réel | Pattern-matching sur des tâches similaires vues à l’entraînement. |
| Test de falsification | Modifier légèrement la formulation ou les noms des entités → effondrement. |
| Référence | Valmeekam et al. (2024) — PlanBench : renommage de variables. |
5.2 Illusion : Le multi-agent est plus intelligent qu’un mono-agent
| Aspect | Réalité |
|---|
| Apparence | Le système multi-agents résout des problèmes complexes. |
| Mécanisme réel | L’orchestrateur (code Python/JS) définit la logique réelle. Les agents sont des générateurs de texte dans un workflow prédéfini. |
| Test de falsification | Remplacer les appels LLM par des templates → résultats similaires sur tâches structurées. |
| Référence | Zhang et al. (2025) — 90% du succès dans l’orchestrateur. |
5.3 Illusion : L’agent apprend de ses erreurs
| Aspect | Réalité |
|---|
| Apparence | Après plusieurs tentatives, l’agent produit une réponse correcte. |
| Mécanisme réel | Le feedback externe (erreur compilateur, résultat test) guide la correction. Sans feedback, pas d’apprentissage. |
| Test de falsification | Supprimer le feedback externe → pas de convergence. |
| Référence | Huang et al. (2024), Shinn et al. (2023). |
5.4 Illusion : Le débat améliore la précision
| Aspect | Réalité |
|---|
| Apparence | Après discussion entre agents, la réponse finale est meilleure. |
| Mécanisme réel | Si la réponse correcte est dans les données d’entraînement, le débat peut la faire “remonter”. Sinon, consensus sur une erreur. |
| Test de falsification | Tester sur des problèmes réellement nouveaux → pas d’amélioration. |
| Référence | Liang et al. (2023), Du et al. (2024). |
5.5 Illusion : Les capacités émergent avec le scaling
| Aspect | Réalité |
|---|
| Apparence | À partir d’une certaine taille, le modèle “acquiert” soudainement une capacité. |
| Mécanisme réel | Artefact du choix de métrique (binaire vs continue). Les courbes continues montrent une amélioration graduelle, pas de saut. |
| Test de falsification | Utiliser des métriques continues → disparition du “saut”. |
| Référence | Schaeffer et al. (2023). |
5.6 Illusion : L’agent est autonome
| Aspect | Réalité |
|---|
| Apparence | L’agent accomplit une tâche “de bout en bout”. |
| Mécanisme réel | Le prompt engineer a optimisé les instructions. Les cas d’échec sont filtrés dans les démos. Un humain valide en coulisses. |
| Test de falsification | Déployer sans supervision → taux d’échec 40-87% (Cemri et al., 2025). |
| Référence | Horton (2023), Luo et al. (2024). |
5.7 Illusion : Le RAG “comprend” les documents
| Aspect | Réalité |
|---|
| Apparence | L’agent répond correctement en citant des sources. |
| Mécanisme réel | Similarité vectorielle + génération conditionnée. Pas de compréhension logique du document. |
| Test de falsification | Insérer des informations contradictoires → l’agent les cite sans les réconcilier. |
| Référence | Pradeep et al. (2024), Liu et al. (2024). |
5.8 Illusion : L’agent planifie
| Aspect | Réalité |
|---|
| Apparence | L’agent produit une séquence d’étapes qui ressemble à un plan. |
| Mécanisme réel | Complétion de texte dans le format d’un plan. Pas de vérification de validité, pas de simulation. |
| Test de falsification | Demander un plan pour un domaine inventé → plan “cohérent” mais irréalisable. |
| Référence | Kambhampati et al. (2024). |
6. PRINCIPES DE DESIGN RÉALISTES
6.1 Principe 1 : Boucle fermée obligatoire
Un agent ne peut améliorer sa performance que si un vérificateur externe et déterministe fournit un feedback exploitable.
Implémentation :
- Toujours coupler l’agent avec un compilateur, un interpréteur, un test automatisé ou un simulateur.
- Le feedback doit être binaire (succès/échec) ou contenir une information d’erreur structurée.
- Ne jamais compter sur l’auto-évaluation de l’agent.
Exemples viables :
- Code + Tests unitaires automatisés
- SQL + Validation de schéma
- Robot + Simulateur physique
6.2 Principe 2 : Scope limité et explicite
Chaque agent doit opérer dans un domaine étroit, bien défini, où ses patterns sont surreprésentés dans les données d’entraînement.
Implémentation :
- Définir explicitement les limites du domaine d’action.
- Refuser les tâches hors domaine plutôt que de tenter une généralisation.
- Utiliser plusieurs agents spécialisés plutôt qu’un agent “généraliste”.
Anti-pattern à éviter :
- “Agent universel” qui fait tout
- Prompt vague du type “Résous ce problème”
6.3 Principe 3 : Orchestration explicite
Dans un système multi-agents, toute la logique de coordination doit être dans l’orchestrateur (code), pas dans les prompts.
Implémentation :
- Le flux de travail est défini en code (Python, etc.), pas en langage naturel.
- Les transitions entre états sont déterministes.
- Les agents sont des “fonctions” appelées par l’orchestrateur, pas des entités autonomes.
Corollaire :
- Le “multi-agent” est souvent un workflow déguisé. Assumer cette réalité plutôt que de la masquer.
6.4 Principe 4 : Supervision humaine au-delà de 85%
Pour atteindre une fiabilité supérieure à 85-90%, investir dans la supervision humaine, pas dans l’augmentation du modèle.
Implémentation :
- Définir des checkpoints où un humain valide les décisions critiques.
- Prévoir un mode “escalade” vers un opérateur humain.
- Mesurer le vrai coût (humain + compute) et non juste le coût API.
Réalité économique :
- Le coût de la supervision humaine pour les derniers 10% est souvent inférieur au coût d’une architecture complexe qui échoue de manière imprévisible.
6.5 Principe 5 : Documentation des dépendances cachées
Tout système présenté comme “autonome” doit expliciter ses dépendances humaines implicites.
Checklist obligatoire :
6.6 Principe 6 : Métriques réalistes
Mesurer la performance en conditions réelles, pas sur des benchmarks contaminés.
Implémentation :
- Utiliser des données de test vraiment inédites (post-training cutoff).
- Inclure les coûts (tokens, latence, supervision humaine) dans les métriques.
- Mesurer la robustesse aux perturbations, pas juste la performance nominale.
Métriques à éviter :
- Accuracy sur benchmark public (contamination)
- “Success rate” sans définition du succès
- Comparaisons cherry-picked
6.7 Tableau récapitulatif : Ce qui fonctionne vs. Ce qui ne fonctionne pas
| ✅ Fonctionne | ❌ Ne fonctionne pas |
|---|
| Génération de code avec tests automatisés | Génération de code sans validation |
| Traduction entre langages formels | Raisonnement logique “from scratch” |
| Complétion dans un domaine étroit | Agent universel |
| RAG avec sources vérifiables | RAG sans vérification de pertinence |
| Orchestration codée explicitement | Coordination émergente |
| Self-debugging avec compilateur | Auto-correction sans feedback |
| Extraction structurée vers schéma défini | Compréhension “profonde” de documents |
7. CORPUS BIBLIOGRAPHIQUE DE RÉFÉRENCE
7.1 Publications clés (Top 20)
| # | Référence | Catégorie | Contribution principale |
|---|
| 1 | Kambhampati et al. (2024) - “LLMs Can’t Plan” | C | Preuve formelle de l’incapacité des LLM à planifier de manière autonome. Framework LLM-Modulo. |
| 2 | Cemri et al. (2025) - “Why Do Multi-Agent LLM Systems Fail?” | D | Taxonomie MAST : 14 modes d’échec, 1600+ traces annotées, taux d’échec 41-87%. |
| 3 | Valmeekam et al. (2023-2025) - Série PlanBench | D | Benchmark montrant l’effondrement des performances avec perturbations lexicales. |
| 4 | Schaeffer et al. (2023) - “Emergence or Metrics?” | C | Démonstration que les capacités “émergentes” sont des artefacts métriques. |
| 5 | Huang et al. (2024) - “Self-Correction Fallacy” | C | Preuve que l’auto-correction sans feedback externe est illusoire. |
| 6 | Dziri et al. (2023) - “Faith and Fate” | C | Le raisonnement multi-étapes s’effondre par recherche probabiliste, pas calcul. |
| 7 | Madaan et al. (2023) - “Self-Refine” | B | Conditions de succès de l’auto-amélioration : feedback externe requis. |
| 8 | Shinn et al. (2023) - “Reflexion” | B | Amélioration uniquement avec évaluateur déterministe. |
| 9 | Liang et al. (2023) - Multi-agent Debate | D | Le débat n’améliore que si la solution est mémorisée. |
| 10 | Park et al. (2023) - “Generative Agents” | A/B | Architecture mémoire/planification viable pour simulation narrative, pas résolution de problèmes. |
| 11 | Yao et al. (2023) - “ReAct” | A | Couplage raisonnement-action efficace mais sensible au bruit du feedback. |
| 12 | Schick et al. (2023) - “Toolformer” | A | Démonstration que l’utilisation d’outils est possible mais reste complétion de texte. |
| 13 | Wu et al. (2023) - “AutoGen” | B | Coordination pour tâches scriptées, échec sur l’imprévu sémantique. |
| 14 | Zhou et al. (2024) - “Code-as-Policy” | B | Supériorité des approches déterministes sur le raisonnement LLM pur. |
| 15 | Stechly et al. (2024) - “Backtracking Failure” | D | Impossibilité de retour en arrière systémique. |
| 16 | Gandhi et al. (2024) - “Theory of Mind Gap” | C | Les agents échouent à modéliser les croyances des autres agents. |
| 17 | Liu et al. (2023) - “Lost in the Middle” | C | Effondrement de l’utilisation d’outils avec contexte long. |
| 18 | Toyer et al. (2024) - “Tensor Trust” | D | Facilité de contournement des défenses par jailbreak sémantique. |
| 19 | Greshake et al. (2024) - “Indirect Injection” | C | Vulnérabilité aux instructions cachées dans le contenu tiers. |
| 20 | Kaplan et al. (2024) - “Revised Scaling Laws” | B | Le coût marginal d’amélioration du raisonnement devient prohibitif. |
7.2 Classification détaillée des sources
Catégorie A : Capacité démontrée et robuste
| Référence | Ce qui est démontré | Conditions de validité |
|---|
| Yao et al. (2023) - ReAct | Couplage pensée-action sur tâches web | Feedback exploitable, domaine limité |
| Schick et al. (2023) - Toolformer | Apprentissage autonome d’utilisation d’API | API bien documentées, tâches simples |
| Rozière et al. (2023) - CodeLlama | Complétion de code de haute qualité | Langages populaires, contexte local |
| Zheng et al. (2024) Zheng et al. (2024) - Tests unitaires | Génération de tests avec boucle Pytest | Feedback déterministe du framework |
Catégorie B : Capacité conditionnelle / fragile
| Référence | Ce qui fonctionne partiellement | Point de fragilité |
|---|
| Madaan et al. (2023) - Self-Refine | Amélioration itérative avec feedback | Sans feedback externe : échec |
| Shinn et al. (2023) - Reflexion | Apprentissage par réflexion | Nécessite évaluateur déterministe |
| Park et al. (2023) - Generative Agents | Simulation sociale cohérente | Échoue sur résolution de problèmes |
| Wu et al. (2023) - AutoGen | Coordination multi-agents scriptée | Échoue sur l’imprévu |
| Zhou et al. (2024) - Code-as-Policy | Exécution de plans en code | Limité aux domaines codifiables |
Catégorie C : Limitation structurelle identifiée
Catégorie D : Échec documenté
Catégorie E : Promesse prématurée / surinterprétation
7.3 Mapping publications ↔ patterns
| Pattern | Publications de référence |
|---|
| Planification autonome | Kambhampati (2024), Valmeekam (2023-2025), Stechly (2024) |
| Auto-correction | Huang (2024), Madaan (2023), Shinn (2023), Liu (2024) |
| Multi-agent debate | Liang (2023), Du (2024), Gandhi (2024) |
| Coordination multi-agents | Cemri (2025), Zhang (2025), Li (2024), Nguyen (2024) |
| Capacités émergentes | Schaeffer (2023), Zhu (2025), Gudibande (2024) |
| Tool-use | Yao (2023), Schick (2023), Patil (2023), Qin (2024) |
| Mémoire long-terme | Liu (2023) |
| Sécurité agents | Greshake (2024), Toyer (2024) |
7.4 Zones sans preuves identifiées
Les domaines suivants manquent de preuves empiriques robustes malgré des affirmations fréquentes :
| Domaine | Affirmation courante | Statut des preuves |
|---|
| Raisonnement causal | ”Le modèle comprend les relations causales” | Aucune preuve positive |
| Créativité authentique | ”Le modèle génère des idées vraiment nouvelles” | Non falsifiable avec métriques actuelles |
| Compréhension profonde | ”Le modèle comprend le sens du texte” | Opérationnellement indistinguable du pattern-matching |
| Apprentissage continu | ”L’agent s’améliore avec l’expérience” | Accumulation, pas généralisation |
| Conscience de soi | ”Le modèle sait ce qu’il ne sait pas” | Calibration imparfaite, pas métacognition |
8. ANNEXES
8.1 Checklist d’évaluation de pattern
Pour tout pattern agentique présenté, appliquer cette checklist :
□ 1. Le pattern reste-t-il valide si le prompt est réduit à l'essentiel ?
□ 2. Fonctionne-t-il sans intervention humaine implicite ?
□ 3. Résiste-t-il à du bruit ou de l'ambiguïté dans l'entrée ?
□ 4. Tient-il dans la durée (au-delà d'une session courte) ?
□ 5. Reste-t-il valide lorsque plusieurs instances du même modèle interagissent ?
□ 6. Les résultats sont-ils reproductibles avec d'autres modèles de même classe ?
□ 7. Le benchmark utilisé est-il exempt de contamination ?
□ 8. Les métriques capturent-elles le succès réel de la tâche ?
□ 9. Le coût total (tokens, latence, supervision) est-il viable ?
□ 10. Les dépendances humaines sont-elles explicitement documentées ?
VERDICT :
- 10/10 → Capacité démontrée robuste (rare)
- 7-9/10 → Capacité conditionnelle (documenter les conditions)
- 4-6/10 → Pattern fragile (ne pas promettre en production)
- 0-3/10 → Illusion ou promesse prématurée
8.2 Glossaire technique
| Terme | Définition opérationnelle |
|---|
| Agent | Système logiciel combinant un LLM avec une boucle perception-raisonnement-action |
| Orchestrateur | Code (non-LLM) qui définit le flux de travail et coordonne les agents |
| Scaling | Augmentation de paramètres, données ou compute |
| Émergence | Apparition de capacités qualitativement nouvelles (sujet à controverse) |
| Pattern-matching | Identification de similarités avec des données d’entraînement |
| World model | Représentation interne explicite de l’état du monde et de sa dynamique |
| Feedback loop | Cycle où l’output d’une action est utilisé pour modifier l’action suivante |
| Ground truth | Valeur correcte de référence pour évaluer une prédiction |
| Contamination | Présence de données de test dans les données d’entraînement |
| Sycophancy | Tendance à modifier sa réponse pour satisfaire l’interlocuteur |
8.3 Références bibliographiques complètes
Publications académiques
- Kambhampati, S., Valmeekam, K., Guan, L., et al. (2024). “LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks.” Proceedings of ICML 2024, 235.
- Cemri, M., Pan, M. Z., Yang, S., et al. (2025). “Why Do Multi-Agent LLM Systems Fail?” arXiv.13657.
- Valmeekam, K., Marquez, M., Sreedharan, S., & Kambhampati, S. (2023). “On the Planning Abilities of Large Language Models—A Critical Investigation.” NeurIPS 2023.
- Schaeffer, R., Miranda, B., & Koyejo, S. (2023). “Are Emergent Abilities of Large Language Models a Mirage?” NeurIPS 2023.
- Huang, J., Shao, Z., et al. (2024). “Large Language Models Cannot Self-Correct Reasoning Yet.” ICLR 2024.
- Dziri, N., Lu, X., Sclar, M., et al. (2023). “Faith and Fate: Limits of Transformers on Compositionality.” NeurIPS 2023.
- Madaan, A., Tandon, N., et al. (2023). “Self-Refine: Iterative Refinement with Self-Feedback.” NeurIPS 2023.
- Shinn, N., Cassano, F., et al. (2023). “Reflexion: Language Agents with Verbal Reinforcement Learning.” NeurIPS 2023.
- Yao, S., Zhao, J., et al. (2023). “ReAct: Synergizing Reasoning and Acting in Language Models.” ICLR 2023.
- Park, J. S., O’Brien, J., et al. (2023). “Generative Agents: Interactive Simulacra of Human Behavior.” UIST 2023.
- Liang, T., He, Z., et al. (2023). “Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate.” arXiv.19118.
- Gandhi, K., et al. (2024). “Understanding Social Reasoning in Language Models with Language Models.” NeurIPS 2024.
- Liu, N. F., Lin, K., et al. (2023). “Lost in the Middle: How Language Models Use Long Contexts.” TACL 2024.
- Greshake, K., et al. (2024). “Not What You’ve Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection.” AISec 2023.
- Stechly, K., Marquez, M., & Kambhampati, S. (2024). “GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems.” NeurIPS FM4DM Workshop.
9. CONCLUSION
Cette méta-analyse établit un cadre critique pour évaluer les capacités réelles des agents IA basés sur des LLM. Les constats principaux sont :
- Les limitations sont structurelles, pas conjoncturelles : L’architecture auto-régressive des LLM impose des plafonds de performance que le scaling seul ne peut dépasser.
- Le multi-agent n’est pas une solution aux limitations du mono-agent : Les systèmes multi-agents héritent des limitations de leurs composants et ajoutent des modes d’échec propres (coordination, cascade d’erreurs).
- L’autonomie est une illusion soigneusement entretenue : Les systèmes “autonomes” dépendent de prompts optimisés, d’orchestrateurs codés et de supervision humaine implicite.
- Les succès réels sont dans les domaines à feedback déterministe : Code avec tests, SQL avec validation, robotique avec simulateur — les boucles fermées fonctionnent.
- La fiabilité au-delà de 85-90% nécessite l’humain : Pour les cas critiques, la supervision humaine reste plus efficace et économique que l’augmentation architecturale.
Cette analyse ne vise pas à décourager le développement d’agents IA, mais à établir des attentes réalistes et des principes de design robustes. Les agents IA sont des outils puissants lorsqu’ils sont utilisés dans leurs domaines de validité, avec une conscience claire de leurs limitations.
Pour aller plus loin
Fin du document