Aller au contenu
Retour

Analyse : Capacités, Limitations et Patterns Prématurés des Agents IA

Publié:  at  11:00 AM
Langues disponibles:

Guide de conception d'agents IA

Articles connexes : Guide pratique de conception d’agents IA | Les briques fondamentales pour construire un agent | Les 11 patterns d’orchestration multi-agents

Agents mono et multi-agents basés sur des LLM

Version : 1.0 Date : Janvier 2026 Méthodologie : Analyse systématique basée sur publications empiriques (2023-2025)


1. Introduction

1.1 Objectif de l’analyse

Cette analyse identifie, classifie et évalue les patterns liés aux agents IA basés sur des LLM (Large Language Models) qui paraissent prometteurs mais dont la réalisabilité reste structurellement limitée avec les architectures actuelles. L’objectif est de fournir un cadre critique, falsifiable et non spéculatif pour évaluer les capacités réelles des systèmes agentiques.

1.2 Périmètre

Inclus :

Exclu strictement :

1.3 Définitions opérationnelles

Agent IA : Système basé sur un LLM capable de percevoir un état, produire du raisonnement local (génération de tokens) et déclencher des actions via une orchestration explicite (code, API, outils).

Système Multi-agents : Ensemble d’agents coordonnés par un protocole explicite. Le multi-agents n’implique aucune intelligence collective émergente par défaut ; toute apparence de coordination supérieure provient de l’orchestrateur ou du protocole de communication.

Scaling : Augmentation des paramètres du modèle, des données d’entraînement ou du compute d’inférence.

1.4 Synthèse des conclusions principales

Constats critiques

  1. Le scaling ne résout pas les limitations structurelles : L’augmentation de la taille des modèles améliore la connaissance factuelle et la fluence linguistique, mais ne corrige pas l’absence de planification autonome, de raisonnement causal ou de compréhension logique profonde (Kambhampati et al., 2024; Valmeekam et al., 2025).
  2. Les systèmes multi-agents échouent dans 41-87% des cas : L’étude MAST (Cemri et al., 2025) identifie 14 modes d’échec distincts, dont 79% proviennent de problèmes de spécification et de coordination, non de limitations techniques d’infrastructure.
  3. L’auto-correction sans feedback externe est illusoire : Les agents ne peuvent pas détecter leurs propres erreurs sans vérificateur externe déterministe (compilateur, test, oracle). L’auto-critique augmente la confiance sans améliorer la précision (Huang et al., 2024; Stechly et al., 2024).
  4. Le multi-agent ne surpasse pas le mono-agent sur la majorité des benchmarks : Les gains de performance sont marginaux et souvent inférieurs à des approches simples comme le best-of-N sampling (Kapoor et al., 2024; Wang et al., 2024).
  5. Les “capacités émergentes” sont des artefacts métriques : Les sauts qualitatifs apparents lors du scaling résultent de choix de métriques non-linéaires, non de réelles transitions de phase cognitive (Schaeffer et al., 2023).

Patterns viables vs. patterns prématurés

CatégorieViabilitéExemples
FonctionnelTâches où le feedback est déterministeTests unitaires, traduction code, SQL
FragileDépendance à des prompts spécifiquesRAG, self-consistency, ReAct
PrématuréPromesse sans preuve de robustesseAgent universel, planification autonome
Structurellement impossibleContradiction avec l’architectureAuto-vérification, raisonnement causal intrinsèque

1.5 Recommandations de design

  1. Privilégier les boucles fermées : Le succès agentique nécessite un vérificateur externe déterministe (compilateur, simulateur, test automatisé).
  2. Limiter le scope par agent : Les agents performants opèrent dans des domaines étroits et bien définis, non en “généralistes”.
  3. Traiter le multi-agent comme orchestration, non comme intelligence collective : Le “locus de décision” réel est l’orchestrateur (souvent du code Python), pas les agents eux-mêmes.
  4. Assumer 85-90% comme plafond de fiabilité : Pour les derniers 10%, investir dans la supervision humaine plutôt que dans l’augmentation du modèle.
  5. Documenter les dépendances cachées : Tout système “autonome” doit expliciter ses dépendances humaines implicites (prompt engineering, sélection de données, validation).

2. TABLEAU SYNTHÉTIQUE DES PATTERNS ANALYSÉS

Légende des catégories

CodeSignification
ACapacité démontrée et robuste
BCapacité conditionnelle / fragile
CLimitation structurelle identifiée
DÉchec documenté
EPromesse prématurée / surinterprétation

2.1 Patterns de planification et raisonnement

#PatternTypeCatégorieVerdict
1Planification autonomeMonoC/DStructurellement impossible
2Auto-vérificationMonoCStructurellement impossible
3Raisonnement causalMonoCPrématuré
4Chain-of-ThoughtMonoBFragile
5Backtracking automatiqueMonoDStructurellement impossible
6Réflexion itérativeMonoB/CFragile
7Self-ConsistencyMonoBRéalisable avec réserves
8Tree-of-ThoughtMonoBFragile

2.2 Patterns multi-agents

#PatternTypeCatégorieVerdict
9Débat multi-agentsMultiD/EPrématuré
10Intelligence collective émergenteMultiEIllusion
11Spécialisation par rôleMultiB/CFragile
12Coordination autonomeMultiDPrématuré
13Auto-organisationMultiDStructurellement impossible
14Vérification croiséeMultiC/DFragile
15Consensus multi-agentsMultiDIllusion

2.3 Patterns mémoire et contexte

#PatternTypeCatégorieVerdict
16Mémoire long-terme autonomeMono/MultiCPrématuré
17RAG (Retrieval-Augmented)MonoA/BRéalisable avec réserves
18Contexte étendu (>100k tokens)MonoB/CFragile
19Mise à jour de mémoire autonomeMonoDPrématuré

2.4 Patterns outils et exécution

#PatternTypeCatégorieVerdict
20Tool-use simpleMonoARéalisable
21Tool-use séquentiel (>3 outils)MonoB/CFragile
22Self-debugging avec compilateurMonoA/BRéalisable
23Code-as-PolicyMonoARéalisable
24Utilisation d’outils inconnusMonoDPrématuré

2.5 Patterns de scaling

#PatternTypeCatégorieVerdict
25Scaling améliore le raisonnement-ESurinterprétation
26Émergence par scaling-EArtefact métrique
27Agent universel par scaling-EIllusion
28Fiabilité par redondanceMultiDFragile

3. ANALYSE DÉTAILLÉE DES PATTERNS CRITIQUES

3.1 Pattern : Planification Autonome

Grille d’analyse complète

ChampContenu
1. Nom du patternPlanification Autonome
2. TypeMono-agent
3. Promesse implicite perçueUn agent LLM peut décomposer un objectif complexe en sous-étapes, ordonnancer ces étapes et les exécuter de manière autonome jusqu’à l’atteinte de l’objectif.
4. Hypothèse technique sous-jacenteLe modèle a internalisé, via l’entraînement sur du texte humain, des représentations suffisantes de la causalité et de la logique séquentielle pour générer des plans valides.
5. Conditions nécessaires(a) Capacité de prédiction des effets d’actions, (b) Capacité de backtracking en cas d’impasse, (c) Maintien d’un modèle du monde cohérent, (d) Distinction entre état actuel et état cible.
6. Ce qui fonctionne réellementLe modèle peut générer des séquences d’actions qui ressemblent à des plans valides sur des domaines fréquents dans les données d’entraînement. La forme textuelle d’un plan est souvent correcte.
7. Limitations structurelles (LLM)Les LLM sont des systèmes auto-régressifs à temps constant par token. Ils ne peuvent pas effectuer de recherche dans un espace d’états. La génération de token n’est pas conditionnée par la vérification de validité logique.
8. Limitations systémiquesAucun mécanisme de vérification interne de la cohérence du plan. Pas de représentation explicite des préconditions et effets des actions.
9. Modes d’échec typiquesPlans invalides (actions impossibles dans l’état actuel), plans incomplets (sous-objectifs oubliés), absence de récupération en cas d’échec d’une étape, dépendance circulaire entre étapes.
10. Dépendances cachéesLe prompt contient souvent des exemples de plans valides (few-shot). L’humain valide implicitement la faisabilité du plan. Les domaines testés sont surreprésentés dans les données.
11. Test de robustesse❌ Prompt minimal : échoue. ❌ Sans intervention humaine : échoue. ❌ Avec bruit/ambiguïté : échoue. ❌ Durée longue : échoue. ❌ Multi-instances même modèle : non applicable.
12. VerdictStructurellement impossible — Le planning autonome contredit l’architecture fondamentale des LLM auto-régressifs.

Publications de référence


3.2 Pattern : Systèmes Multi-Agents avec Débat

Grille d’analyse complète

ChampContenu
1. Nom du patternMulti-Agent Debate / Discussion
2. TypeMulti-agents
3. Promesse implicite perçuePlusieurs agents LLM, en confrontant leurs réponses, corrigent mutuellement leurs erreurs et convergent vers une réponse plus précise que celle d’un agent unique.
4. Hypothèse technique sous-jacenteLa diversité des réponses + un mécanisme d’arbitrage permet de filtrer les erreurs individuelles (similaire au bagging en ML ou au vote majoritaire).
5. Conditions nécessaires(a) Indépendance des erreurs entre agents, (b) Capacité de critique constructive, (c) Capacité de distinguer un argument valide d’un argument persuasif, (d) Absence de biais systémique partagé.
6. Ce qui fonctionne réellementLe débat améliore les résultats uniquement lorsque la réponse correcte est déjà “accessible” via les données d’entraînement (mémorisation distribuée).
7. Limitations structurelles (LLM)Tous les agents utilisent le même modèle ou des modèles similaires (homogénéité). Les erreurs sont corrélées, pas indépendantes. Le biais de conformité pousse les agents à s’aligner sur la première réponse.
8. Limitations systémiquesPas de mécanisme de vérité objective. L’agent le plus “persuasif” (verbeux, confiant) l’emporte, pas le plus “correct”. L’absence de ground-truth empêche la convergence vers la vérité.
9. Modes d’échec typiquesConsensus sur une réponse fausse (echo chamber). Amplification des erreurs via validation mutuelle. Boucles de discussion infinies sans convergence. Agent “dominant” qui impose sa réponse.
10. Dépendances cachéesL’orchestrateur définit les règles du débat (qui parle quand, critères de fin). Le prompt initial cadre le débat. Un humain sélectionne souvent la réponse finale.
11. Test de robustesse❌ Prompt minimal : échoue. ❌ Sans intervention humaine : échoue. ❌ Avec bruit/ambiguïté : échoue sévèrement. ⚠️ Durée longue : dégradation. ❌ Multi-instances même modèle : exacerbe les problèmes.
12. VerdictPrématuré / Illusion — Le débat multi-agents n’apporte pas d’intelligence collective réelle.

Publications de référence


3.3 Pattern : Auto-Correction / Self-Refinement

Grille d’analyse complète

ChampContenu
1. Nom du patternAuto-Correction (Self-Refinement, Reflexion)
2. TypeMono-agent
3. Promesse implicite perçueUn agent peut détecter ses propres erreurs, les critiquer et les corriger de manière itérative jusqu’à produire une réponse valide.
4. Hypothèse technique sous-jacenteLe modèle possède une “capacité méta-cognitive” lui permettant d’évaluer la qualité de ses propres outputs.
5. Conditions nécessaires(a) Capacité de détection d’erreur, (b) Capacité de diagnostic de la cause, (c) Capacité de génération d’une correction appropriée, (d) Critère d’arrêt fiable.
6. Ce qui fonctionne réellementL’auto-correction fonctionne si et seulement si un vérificateur externe fournit un feedback exploitable (ex: message d’erreur du compilateur, résultat de test automatisé).
7. Limitations structurelles (LLM)Le modèle utilise les mêmes poids pour générer et pour critiquer. Le biais de confirmation pousse à valider sa propre réponse. Pas de représentation distincte de “production” vs “évaluation”.
8. Limitations systémiquesSans signal externe, le modèle n’a aucun moyen de distinguer une réponse correcte d’une réponse incorrecte mais plausible. La “critique” générée est elle-même sujette aux mêmes biais.
9. Modes d’échec typiquesValidation d’une réponse fausse comme correcte. Changement d’une réponse correcte vers une réponse incorrecte (sycophancy). Boucles infinies de “correction” sans amélioration. Critique sans action corrective.
10. Dépendances cachéesLa structure du prompt induit la “forme” de l’auto-critique. Les exemples few-shot montrent comment critiquer. L’humain valide souvent le résultat final.
11. Test de robustesse❌ Prompt minimal : échoue. ❌ Sans intervention humaine : échoue massivement. ⚠️ Avec bruit : performance dégradée. ❌ Durée longue : dérive. ❌ Multi-instances même modèle : non applicable.
12. VerdictStructurellement impossible sans vérificateur externe — L’auto-vérification pure est une illusion.

Publications de référence


3.4 Pattern : Capacités Émergentes par Scaling

Grille d’analyse complète

ChampContenu
1. Nom du patternÉmergence par Scaling
2. TypeArchitecture (non spécifique agent)
3. Promesse implicite perçueEn augmentant suffisamment la taille du modèle (paramètres, données, compute), des capacités qualitativement nouvelles “émergent” de manière discontinue.
4. Hypothèse technique sous-jacenteIl existe des seuils critiques de complexité au-delà desquels le modèle acquiert des capacités de raisonnement, de planification ou de compréhension qui étaient absentes auparavant.
5. Conditions nécessaires(a) Existence réelle de transitions de phase, (b) Indépendance de l’observation par rapport aux métriques choisies, (c) Robustesse des capacités émergées.
6. Ce qui fonctionne réellementLe scaling améliore la fluence, la couverture factuelle, la cohérence stylistique et la réduction des hallucinations triviales. Les performances sur des benchmarks existants augmentent.
7. Limitations structurelles (LLM)Les “sauts” observés sont des artefacts de métriques non-linéaires (ex: “réussi/échoué” vs probabilité continue). Les capacités de raisonnement mesurées par des benchmarks spécifiques ne généralisent pas.
8. Limitations systémiquesLa contamination des benchmarks (présence dans les données d’entraînement) crée une illusion de capacité. Le scaling ne modifie pas l’architecture fondamentale (auto-régressive, pas de world model).
9. Modes d’échec typiquesRégression sur des variantes simples des problèmes “maîtrisés”. Fragilité aux perturbations lexicales. Succès sur benchmark, échec en conditions réelles.
10. Dépendances cachéesLe benchmark est sélectionné pour montrer le “saut”. Les métriques sont choisies post-hoc. Les comparaisons ignorent le coût (compute, données).
11. Test de robustesse⚠️ Prompt minimal : variable. ⚠️ Sans intervention humaine : partiel. ❌ Avec perturbations : échec fréquent. ⚠️ Durée longue : stable sur recall factuel. ❌ Multi-instances même modèle : non applicable.
12. VerdictSurinterprétation / Artefact métrique — Les capacités “émergentes” sont des illusions statistiques.

Publications de référence


3.5 Pattern : Coordination Multi-Agents Autonome

Grille d’analyse complète

ChampContenu
1. Nom du patternCoordination Multi-Agents Autonome
2. TypeMulti-agents
3. Promesse implicite perçuePlusieurs agents peuvent se coordonner de manière autonome, se répartir les tâches et fusionner leurs résultats sans orchestration externe rigide.
4. Hypothèse technique sous-jacenteLes agents développent des protocoles de communication implicites et des mécanismes de coordination via l’échange de messages en langage naturel.
5. Conditions nécessaires(a) Compréhension mutuelle des rôles, (b) Protocole de communication non-ambigu, (c) Détection et résolution de conflits, (d) Synchronisation d’état partagé.
6. Ce qui fonctionne réellementLa coordination fonctionne lorsque l’orchestrateur (code externe) définit explicitement les flux, les rôles et les critères de transition. Le succès dépend du script, pas des agents.
7. Limitations structurelles (LLM)Absence de Theory of Mind fiable. Pas de représentation explicite de l’état des autres agents. Communication en langage naturel intrinsèquement ambiguë.
8. Limitations systémiques80% des échanges inter-agents sont redondants (Zhang et al., 2024). Le passage d’information entre agents dégrade le signal (Information Bottleneck). Pas de mécanisme de “vérité partagée”.
9. Modes d’échec typiquesDeadlock (chaque agent attend l’autre). Duplication de travail. Conflits de ressources non résolus. Perte d’information critique lors des transferts. Boucles infinies.
10. Dépendances cachéesL’orchestrateur Python/JavaScript définit le flux réel. Les prompts spécifient rigidement les rôles. Un humain supervise les blocages.
11. Test de robustesse❌ Prompt minimal : chaos. ❌ Sans intervention humaine : blocage ou boucle. ❌ Avec bruit/ambiguïté : effondrement. ❌ Durée longue : dérive sémantique. ❌ Multi-instances même modèle : biais amplifiés.
12. VerdictPrématuré / Structurellement limité — La coordination réelle est dans l’orchestrateur, pas dans les agents.

Publications de référence


4. SYNTHÈSE TRANSVERSALE DES LIMITATIONS

4.1 Limitations structurelles (inhérentes aux LLM)

Ces limitations découlent directement de l’architecture des modèles de langage auto-régressifs et ne peuvent être résolues par scaling ou prompt engineering.

4.1.1 Absence de World Model

AspectConstat
NatureLes LLM ne maintiennent pas de représentation explicite de l’état du monde. Chaque token est prédit conditionnellement au contexte précédent, sans modèle causal sous-jacent.
ConséquenceIncapacité à prédire les effets d’actions, à simuler des états futurs ou à raisonner contrefactuellement.
Implication pour les agentsLa “planification” observée est de la complétion de patterns textuels de plans, pas de la génération de plans valides.
PublicationsLopez-Paz et al. (2024), Kambhampati et al. (2024)

4.1.2 Raisonnement comme Pattern-Matching

AspectConstat
NatureCe qui apparaît comme du “raisonnement” est une interpolation probabiliste entre des patterns vus à l’entraînement.
ConséquenceÉchec sur les problèmes hors distribution, sur les variations lexicales simples, sur les compositions nouvelles de concepts connus.
Implication pour les agentsLe raisonnement “from scratch” est absent. Le modèle reconnaît des solutions types mais ne les dérive pas.
PublicationsMittal et al. (2024), Dziri et al. (2023)

4.1.3 Temps Constant par Token

AspectConstat
NatureUn LLM prend un temps essentiellement constant pour générer chaque token, indépendamment de la complexité logique requise.
ConséquenceImpossibilité de résoudre des problèmes dont la complexité varie (ex: recherche combinatoire, vérification logique).
Implication pour les agentsLes problèmes NP-complets ou semi-décidables ne peuvent pas être résolus par génération de tokens.
PublicationsKambhampati et al. (2024), Yedidia et al. (2024)

4.1.4 Reversal Curse

AspectConstat
NatureSi le modèle a appris “A est le père de B”, il n’en déduit pas automatiquement “B est le fils de A”.
ConséquenceLes relations logiques ne sont pas représentées de manière bidirectionnelle.
Implication pour les agentsLe raisonnement symétrique ou inverse requiert une présence explicite dans les données.
PublicationsHui et al. (2024), Levy et al. (2024)

4.2 Limitations systémiques (inhérentes aux architectures agentiques)

4.2.1 Cascade d’erreurs

AspectConstat
NatureDans un système multi-agents ou multi-étapes, une erreur mineure d’un composant se propage et s’amplifie.
FréquenceCritique — identifié comme cause majeure d’échec dans 80%+ des systèmes multi-agents.
ImplicationLa fiabilité d’une chaîne de N étapes est environ (fiabilité_étape)^N. Avec 90% par étape, 10 étapes donnent ~35% de fiabilité.
PublicationsLin et al. (2024), Cemri et al. (2025)

4.2.2 Dilution de responsabilité

AspectConstat
NatureDans les grands systèmes multi-agents, aucun agent n’est “responsable” du résultat final, ce qui crée des boucles d’attente.
ConséquenceBlocages, non-décisions, passage de responsabilité infini.
PublicationsLi et al. (2024)

4.2.3 Homogénéité des erreurs

AspectConstat
NatureSi tous les agents utilisent le même modèle de base (ou des modèles similaires), leurs erreurs sont corrélées.
ConséquenceLe vote majoritaire ou la vérification croisée ne corrige pas les biais systémiques partagés.
PublicationsSchwartz et al. (2024), Pärnamaa et al. (2024)

4.2.4 Coût exponentiel

AspectConstat
NatureLes architectures multi-agents consomment 5x à 500x plus de tokens pour des gains marginaux (<5%).
ConséquenceNon-viabilité économique pour la plupart des cas d’usage.
PublicationsBansal et al. (2024), Zhou et al. (2024)

4.3 Tableau récapitulatif : Mur de verre du scaling

CapacitéImpact du scalingPlafond identifié
Connaissance factuelle✅ Amélioration significativeLimité par exhaustion des données
Fluence linguistique✅ AméliorationPresque saturé
Cohérence stylistique✅ AméliorationPresque saturé
Raisonnement logique⚠️ Amélioration marginale~85-90% sur benchmarks contrôlés
Planification autonome❌ Pas d’amélioration structurellePlafond architectural
Causalité❌ Pas d’améliorationAbsent de l’architecture
Robustesse aux perturbations❌ Pas d’améliorationFragilité intrinsèque
Auto-vérification❌ Pas d’améliorationImpossible par design

5. LISTE DES ILLUSIONS RÉCURRENTES

Cette section recense les patterns qui sont régulièrement présentés comme des capacités acquises mais qui sont, à l’analyse, des illusions ou des surinterprétations.

5.1 Illusion : L’agent “comprend” la tâche

AspectRéalité
ApparenceL’agent produit une réponse cohérente et pertinente.
Mécanisme réelPattern-matching sur des tâches similaires vues à l’entraînement.
Test de falsificationModifier légèrement la formulation ou les noms des entités → effondrement.
RéférenceValmeekam et al. (2024) — PlanBench : renommage de variables.

5.2 Illusion : Le multi-agent est plus intelligent qu’un mono-agent

AspectRéalité
ApparenceLe système multi-agents résout des problèmes complexes.
Mécanisme réelL’orchestrateur (code Python/JS) définit la logique réelle. Les agents sont des générateurs de texte dans un workflow prédéfini.
Test de falsificationRemplacer les appels LLM par des templates → résultats similaires sur tâches structurées.
RéférenceZhang et al. (2025) — 90% du succès dans l’orchestrateur.

5.3 Illusion : L’agent apprend de ses erreurs

AspectRéalité
ApparenceAprès plusieurs tentatives, l’agent produit une réponse correcte.
Mécanisme réelLe feedback externe (erreur compilateur, résultat test) guide la correction. Sans feedback, pas d’apprentissage.
Test de falsificationSupprimer le feedback externe → pas de convergence.
RéférenceHuang et al. (2024), Shinn et al. (2023).

5.4 Illusion : Le débat améliore la précision

AspectRéalité
ApparenceAprès discussion entre agents, la réponse finale est meilleure.
Mécanisme réelSi la réponse correcte est dans les données d’entraînement, le débat peut la faire “remonter”. Sinon, consensus sur une erreur.
Test de falsificationTester sur des problèmes réellement nouveaux → pas d’amélioration.
RéférenceLiang et al. (2023), Du et al. (2024).

5.5 Illusion : Les capacités émergent avec le scaling

AspectRéalité
ApparenceÀ partir d’une certaine taille, le modèle “acquiert” soudainement une capacité.
Mécanisme réelArtefact du choix de métrique (binaire vs continue). Les courbes continues montrent une amélioration graduelle, pas de saut.
Test de falsificationUtiliser des métriques continues → disparition du “saut”.
RéférenceSchaeffer et al. (2023).

5.6 Illusion : L’agent est autonome

AspectRéalité
ApparenceL’agent accomplit une tâche “de bout en bout”.
Mécanisme réelLe prompt engineer a optimisé les instructions. Les cas d’échec sont filtrés dans les démos. Un humain valide en coulisses.
Test de falsificationDéployer sans supervision → taux d’échec 40-87% (Cemri et al., 2025).
RéférenceHorton (2023), Luo et al. (2024).

5.7 Illusion : Le RAG “comprend” les documents

AspectRéalité
ApparenceL’agent répond correctement en citant des sources.
Mécanisme réelSimilarité vectorielle + génération conditionnée. Pas de compréhension logique du document.
Test de falsificationInsérer des informations contradictoires → l’agent les cite sans les réconcilier.
RéférencePradeep et al. (2024), Liu et al. (2024).

5.8 Illusion : L’agent planifie

AspectRéalité
ApparenceL’agent produit une séquence d’étapes qui ressemble à un plan.
Mécanisme réelComplétion de texte dans le format d’un plan. Pas de vérification de validité, pas de simulation.
Test de falsificationDemander un plan pour un domaine inventé → plan “cohérent” mais irréalisable.
RéférenceKambhampati et al. (2024).

6. PRINCIPES DE DESIGN RÉALISTES

6.1 Principe 1 : Boucle fermée obligatoire

Un agent ne peut améliorer sa performance que si un vérificateur externe et déterministe fournit un feedback exploitable.

Implémentation :

Exemples viables :

6.2 Principe 2 : Scope limité et explicite

Chaque agent doit opérer dans un domaine étroit, bien défini, où ses patterns sont surreprésentés dans les données d’entraînement.

Implémentation :

Anti-pattern à éviter :

6.3 Principe 3 : Orchestration explicite

Dans un système multi-agents, toute la logique de coordination doit être dans l’orchestrateur (code), pas dans les prompts.

Implémentation :

Corollaire :

6.4 Principe 4 : Supervision humaine au-delà de 85%

Pour atteindre une fiabilité supérieure à 85-90%, investir dans la supervision humaine, pas dans l’augmentation du modèle.

Implémentation :

Réalité économique :

6.5 Principe 5 : Documentation des dépendances cachées

Tout système présenté comme “autonome” doit expliciter ses dépendances humaines implicites.

Checklist obligatoire :

6.6 Principe 6 : Métriques réalistes

Mesurer la performance en conditions réelles, pas sur des benchmarks contaminés.

Implémentation :

Métriques à éviter :

6.7 Tableau récapitulatif : Ce qui fonctionne vs. Ce qui ne fonctionne pas

✅ Fonctionne❌ Ne fonctionne pas
Génération de code avec tests automatisésGénération de code sans validation
Traduction entre langages formelsRaisonnement logique “from scratch”
Complétion dans un domaine étroitAgent universel
RAG avec sources vérifiablesRAG sans vérification de pertinence
Orchestration codée explicitementCoordination émergente
Self-debugging avec compilateurAuto-correction sans feedback
Extraction structurée vers schéma définiCompréhension “profonde” de documents

7. CORPUS BIBLIOGRAPHIQUE DE RÉFÉRENCE

7.1 Publications clés (Top 20)

#RéférenceCatégorieContribution principale
1Kambhampati et al. (2024) - “LLMs Can’t Plan”CPreuve formelle de l’incapacité des LLM à planifier de manière autonome. Framework LLM-Modulo.
2Cemri et al. (2025) - “Why Do Multi-Agent LLM Systems Fail?”DTaxonomie MAST : 14 modes d’échec, 1600+ traces annotées, taux d’échec 41-87%.
3Valmeekam et al. (2023-2025) - Série PlanBenchDBenchmark montrant l’effondrement des performances avec perturbations lexicales.
4Schaeffer et al. (2023) - “Emergence or Metrics?”CDémonstration que les capacités “émergentes” sont des artefacts métriques.
5Huang et al. (2024) - “Self-Correction Fallacy”CPreuve que l’auto-correction sans feedback externe est illusoire.
6Dziri et al. (2023) - “Faith and Fate”CLe raisonnement multi-étapes s’effondre par recherche probabiliste, pas calcul.
7Madaan et al. (2023) - “Self-Refine”BConditions de succès de l’auto-amélioration : feedback externe requis.
8Shinn et al. (2023) - “Reflexion”BAmélioration uniquement avec évaluateur déterministe.
9Liang et al. (2023) - Multi-agent DebateDLe débat n’améliore que si la solution est mémorisée.
10Park et al. (2023) - “Generative Agents”A/BArchitecture mémoire/planification viable pour simulation narrative, pas résolution de problèmes.
11Yao et al. (2023) - “ReAct”ACouplage raisonnement-action efficace mais sensible au bruit du feedback.
12Schick et al. (2023) - “Toolformer”ADémonstration que l’utilisation d’outils est possible mais reste complétion de texte.
13Wu et al. (2023) - “AutoGen”BCoordination pour tâches scriptées, échec sur l’imprévu sémantique.
14Zhou et al. (2024) - “Code-as-Policy”BSupériorité des approches déterministes sur le raisonnement LLM pur.
15Stechly et al. (2024) - “Backtracking Failure”DImpossibilité de retour en arrière systémique.
16Gandhi et al. (2024) - “Theory of Mind Gap”CLes agents échouent à modéliser les croyances des autres agents.
17Liu et al. (2023) - “Lost in the Middle”CEffondrement de l’utilisation d’outils avec contexte long.
18Toyer et al. (2024) - “Tensor Trust”DFacilité de contournement des défenses par jailbreak sémantique.
19Greshake et al. (2024) - “Indirect Injection”CVulnérabilité aux instructions cachées dans le contenu tiers.
20Kaplan et al. (2024) - “Revised Scaling Laws”BLe coût marginal d’amélioration du raisonnement devient prohibitif.

7.2 Classification détaillée des sources

Catégorie A : Capacité démontrée et robuste

RéférenceCe qui est démontréConditions de validité
Yao et al. (2023) - ReActCouplage pensée-action sur tâches webFeedback exploitable, domaine limité
Schick et al. (2023) - ToolformerApprentissage autonome d’utilisation d’APIAPI bien documentées, tâches simples
Rozière et al. (2023) - CodeLlamaComplétion de code de haute qualitéLangages populaires, contexte local
Zheng et al. (2024) Zheng et al. (2024) - Tests unitairesGénération de tests avec boucle PytestFeedback déterministe du framework

Catégorie B : Capacité conditionnelle / fragile

RéférenceCe qui fonctionne partiellementPoint de fragilité
Madaan et al. (2023) - Self-RefineAmélioration itérative avec feedbackSans feedback externe : échec
Shinn et al. (2023) - ReflexionApprentissage par réflexionNécessite évaluateur déterministe
Park et al. (2023) - Generative AgentsSimulation sociale cohérenteÉchoue sur résolution de problèmes
Wu et al. (2023) - AutoGenCoordination multi-agents scriptéeÉchoue sur l’imprévu
Zhou et al. (2024) - Code-as-PolicyExécution de plans en codeLimité aux domaines codifiables

Catégorie C : Limitation structurelle identifiée

RéférenceLimitation identifiéeImplication
Kambhampati et al. (2024)LLM ne peuvent pas planifierNécessité de vérificateur externe
Schaeffer et al. (2023)Émergence est artefact métriquePas de saut qualitatif réel
Huang et al. (2024)Auto-correction illusoireFeedback externe obligatoire
Dziri et al. (2023)Raisonnement = recherche probabilistePas de calcul logique
Liu et al. (2023)Lost in the MiddleContexte long dégrade performance
Gandhi et al. (2024)Pas de Theory of MindCoordination inter-agents limitée
Greshake et al. (2024)Injection indirecteVulnérabilité structurelle

Catégorie D : Échec documenté

RéférenceÉchec documentéTaux d’échec
Cemri et al. (2025) - MASTSystèmes multi-agents41-87%
Valmeekam et al. (2023-2025)Planification avec perturbations~90% de chute
Stechly et al. (2024)BacktrackingSystématique
Liang et al. (2023)Débat sur problèmes nouveauxPas d’amélioration
Toyer et al. (2024)Défenses de sécuritéContournables

Catégorie E : Promesse prématurée / surinterprétation

RéférencePromesseRéalité
Zhu et al. (2025)Capacités émergentesOptimisation métrique
Gudibande et al. (2024)Distillation préserve logiqueCopie le style, pas la logique
Talebirad et al. (2024)Coopération émergenteRépétition de patterns de politesse
Marcus et al. (2024)Scaling comble le gap neuro-symboliqueLimites architecturales

7.3 Mapping publications ↔ patterns

PatternPublications de référence
Planification autonomeKambhampati (2024), Valmeekam (2023-2025), Stechly (2024)
Auto-correctionHuang (2024), Madaan (2023), Shinn (2023), Liu (2024)
Multi-agent debateLiang (2023), Du (2024), Gandhi (2024)
Coordination multi-agentsCemri (2025), Zhang (2025), Li (2024), Nguyen (2024)
Capacités émergentesSchaeffer (2023), Zhu (2025), Gudibande (2024)
Tool-useYao (2023), Schick (2023), Patil (2023), Qin (2024)
Mémoire long-termeLiu (2023)
Sécurité agentsGreshake (2024), Toyer (2024)

7.4 Zones sans preuves identifiées

Les domaines suivants manquent de preuves empiriques robustes malgré des affirmations fréquentes :

DomaineAffirmation couranteStatut des preuves
Raisonnement causal”Le modèle comprend les relations causales”Aucune preuve positive
Créativité authentique”Le modèle génère des idées vraiment nouvelles”Non falsifiable avec métriques actuelles
Compréhension profonde”Le modèle comprend le sens du texte”Opérationnellement indistinguable du pattern-matching
Apprentissage continu”L’agent s’améliore avec l’expérience”Accumulation, pas généralisation
Conscience de soi”Le modèle sait ce qu’il ne sait pas”Calibration imparfaite, pas métacognition

8. ANNEXES

8.1 Checklist d’évaluation de pattern

Pour tout pattern agentique présenté, appliquer cette checklist :

□ 1. Le pattern reste-t-il valide si le prompt est réduit à l'essentiel ?
□ 2. Fonctionne-t-il sans intervention humaine implicite ?
□ 3. Résiste-t-il à du bruit ou de l'ambiguïté dans l'entrée ?
□ 4. Tient-il dans la durée (au-delà d'une session courte) ?
□ 5. Reste-t-il valide lorsque plusieurs instances du même modèle interagissent ?
□ 6. Les résultats sont-ils reproductibles avec d'autres modèles de même classe ?
□ 7. Le benchmark utilisé est-il exempt de contamination ?
□ 8. Les métriques capturent-elles le succès réel de la tâche ?
□ 9. Le coût total (tokens, latence, supervision) est-il viable ?
□ 10. Les dépendances humaines sont-elles explicitement documentées ?

VERDICT :
- 10/10 → Capacité démontrée robuste (rare)
- 7-9/10 → Capacité conditionnelle (documenter les conditions)
- 4-6/10 → Pattern fragile (ne pas promettre en production)
- 0-3/10 → Illusion ou promesse prématurée

8.2 Glossaire technique

TermeDéfinition opérationnelle
AgentSystème logiciel combinant un LLM avec une boucle perception-raisonnement-action
OrchestrateurCode (non-LLM) qui définit le flux de travail et coordonne les agents
ScalingAugmentation de paramètres, données ou compute
ÉmergenceApparition de capacités qualitativement nouvelles (sujet à controverse)
Pattern-matchingIdentification de similarités avec des données d’entraînement
World modelReprésentation interne explicite de l’état du monde et de sa dynamique
Feedback loopCycle où l’output d’une action est utilisé pour modifier l’action suivante
Ground truthValeur correcte de référence pour évaluer une prédiction
ContaminationPrésence de données de test dans les données d’entraînement
SycophancyTendance à modifier sa réponse pour satisfaire l’interlocuteur

8.3 Références bibliographiques complètes

Publications académiques

  1. Kambhampati, S., Valmeekam, K., Guan, L., et al. (2024). “LLMs Can’t Plan, But Can Help Planning in LLM-Modulo Frameworks.” Proceedings of ICML 2024, 235
    .
  2. Cemri, M., Pan, M. Z., Yang, S., et al. (2025). “Why Do Multi-Agent LLM Systems Fail?” arXiv
    .13657
    .
  3. Valmeekam, K., Marquez, M., Sreedharan, S., & Kambhampati, S. (2023). “On the Planning Abilities of Large Language Models—A Critical Investigation.” NeurIPS 2023.
  4. Schaeffer, R., Miranda, B., & Koyejo, S. (2023). “Are Emergent Abilities of Large Language Models a Mirage?” NeurIPS 2023.
  5. Huang, J., Shao, Z., et al. (2024). “Large Language Models Cannot Self-Correct Reasoning Yet.” ICLR 2024.
  6. Dziri, N., Lu, X., Sclar, M., et al. (2023). “Faith and Fate: Limits of Transformers on Compositionality.” NeurIPS 2023.
  7. Madaan, A., Tandon, N., et al. (2023). “Self-Refine: Iterative Refinement with Self-Feedback.” NeurIPS 2023.
  8. Shinn, N., Cassano, F., et al. (2023). “Reflexion: Language Agents with Verbal Reinforcement Learning.” NeurIPS 2023.
  9. Yao, S., Zhao, J., et al. (2023). “ReAct: Synergizing Reasoning and Acting in Language Models.” ICLR 2023.
  10. Park, J. S., O’Brien, J., et al. (2023). “Generative Agents: Interactive Simulacra of Human Behavior.” UIST 2023.
  11. Liang, T., He, Z., et al. (2023). “Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate.” arXiv
    .19118
    .
  12. Gandhi, K., et al. (2024). “Understanding Social Reasoning in Language Models with Language Models.” NeurIPS 2024.
  13. Liu, N. F., Lin, K., et al. (2023). “Lost in the Middle: How Language Models Use Long Contexts.” TACL 2024.
  14. Greshake, K., et al. (2024). “Not What You’ve Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection.” AISec 2023.
  15. Stechly, K., Marquez, M., & Kambhampati, S. (2024). “GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems.” NeurIPS FM4DM Workshop.

9. CONCLUSION

Cette méta-analyse établit un cadre critique pour évaluer les capacités réelles des agents IA basés sur des LLM. Les constats principaux sont :

  1. Les limitations sont structurelles, pas conjoncturelles : L’architecture auto-régressive des LLM impose des plafonds de performance que le scaling seul ne peut dépasser.
  2. Le multi-agent n’est pas une solution aux limitations du mono-agent : Les systèmes multi-agents héritent des limitations de leurs composants et ajoutent des modes d’échec propres (coordination, cascade d’erreurs).
  3. L’autonomie est une illusion soigneusement entretenue : Les systèmes “autonomes” dépendent de prompts optimisés, d’orchestrateurs codés et de supervision humaine implicite.
  4. Les succès réels sont dans les domaines à feedback déterministe : Code avec tests, SQL avec validation, robotique avec simulateur — les boucles fermées fonctionnent.
  5. La fiabilité au-delà de 85-90% nécessite l’humain : Pour les cas critiques, la supervision humaine reste plus efficace et économique que l’augmentation architecturale.

Cette analyse ne vise pas à décourager le développement d’agents IA, mais à établir des attentes réalistes et des principes de design robustes. Les agents IA sont des outils puissants lorsqu’ils sont utilisés dans leurs domaines de validité, avec une conscience claire de leurs limitations.


Pour aller plus loin


Fin du document



Article précédent
Engram: une proposition de deepseek pour arréter de recalculer des faits simples
Article suivant
Guide de Conception d'Agents IA : Ce qui Fonctionne, Ce qui Échoue