Ce qui fonctionne, ce qui ne fonctionne pas, et pourquoi — basé sur l’analyse de publications (2023-2025).
Articles connexes : Méta-analyse détaillée des agents IA | Les briques fondamentales pour construire un agent | Les 11 patterns d’orchestration multi-agents

Le Principe Fondamental
LA RÈGLE D’OR
Un agent IA réussit quand il génère du contenu qui sera validé par un système déterministe externe. Il échoue quand il doit valider lui-même son propre travail.
Cette règle explique 90% des succès et des échecs documentés. Elle se décline en 3 corollaires :
- Boucle fermée = Succès probable : L’agent génère, un système externe valide (compilateur, test, simulateur)
- Boucle ouverte = Échec probable : L’agent génère et s’auto-évalue sans feedback externe
- Le locus de décision détermine le succès : Plus la logique est dans le code d’orchestration, plus le système est fiable
Le Paradoxe
Pourquoi le Code est Plus Facile que le Plan Marketing
C’est profondément contre-intuitif :
| Code | Plan Marketing | |
|---|---|---|
| Perception humaine | ”Difficile, technique" | "Facile, c’est juste du texte” |
| Réalité pour un LLM | ✅ Facile à valider | ❌ Impossible à valider automatiquement |
Le code a un vérificateur automatique
Le feedback est : binaire, immédiat, précis, automatique.
Le plan marketing n’en a pas
Le feedback est : subjectif, différé (6 mois), ambigu, humain obligatoire.
La règle générale
Plus une tâche semble “créative” et “humaine”, plus elle est difficile pour un agent autonome.
Plus une tâche semble “technique” et “rigide”, plus elle est facile pour un agent autonome.
| Domaine | Vérificateur automatique ? | Difficulté agent |
|---|---|---|
| Code | ✅ Compilateur + Tests | Facile |
| SQL | ✅ Exécution + Schéma | Facile |
| Maths formelles | ✅ Solveur (Lean, Coq) | Facile |
| Extraction → JSON | ✅ JSON Schema | Facile |
| Traduction EN→FR | ⚠️ Partiel (grammaire) | Moyen |
| Plan marketing | ❌ Aucun | Difficile |
| Stratégie business | ❌ Aucun | Difficile |
| Rédaction créative | ❌ Aucun | Difficile |
Ce n’est pas une question de complexité intellectuelle. C’est une question de vérifiabilité automatique.
Ce Qui Fonctionne Vraiment
Les patterns suivants ont des preuves empiriques solides de succès en production.
1. Génération de Code avec Validation Automatique
| Aspect | Détail |
|---|---|
| Taux de succès | 85-95% sur tâches de complexité moyenne |
| Pourquoi ça marche | Le compilateur/testeur fournit un feedback déterministe. L’agent itère jusqu’au succès. |
| Conditions | Tests unitaires existants, contexte localisé (1-3 fichiers), spécification claire |
| Références | Olausson 2024, Zheng 2024, Jimenez 2024 (SWE-bench) |
Implémentation : Boucle Générer → Exécuter tests → Analyser erreurs → Corriger → Répéter. Maximum 5 itérations. L’agent n’a pas besoin de “réfléchir”, il réagit aux messages d’erreur.
2. Traduction Langage Naturel → Format Structuré
| Aspect | Détail |
|---|---|
| Taux de succès | 90-98% pour SQL, Terraform, CSS, DSL métier |
| Pourquoi ça marche | Le format cible contraint l’espace des réponses possibles. La structure rigide rejette le bruit. |
| Conditions | Schéma/grammaire cible défini, exemples dans le prompt, validation syntaxique |
| Références | Dong 2024, Databricks 2024, Wang 2024 (Code-as-Policy) |
3. Extraction d’Information vers Schéma Défini
| Aspect | Détail |
|---|---|
| Taux de succès | > 95% pour extraction PDF/texte → JSON/SQL |
| Pourquoi ça marche | Tâche de “lecture ciblée” (métriques) plutôt que de synthèse créative. Le schéma force le rejet du bruit. |
| Conditions | Schéma de sortie explicite, champs obligatoires définis, validation de complétude |
| Références | Wang 2024 (ETL), He 2025 (méta-analyse), McKinsey AI 2025 |
4. RAG avec Sources Vérifiables
| Aspect | Détail |
|---|---|
| Taux de succès | 85-95% avec sources de haute qualité pré-filtrées |
| Pourquoi ça marche | L’ancrage (grounding) sur des sources indexées supprime l’hallucination factuelle. Le succès vient du filtrage en amont. |
| Conditions | Sources vérifiées, citations obligatoires, graphe de connaissances pour liens |
| Références | Elicit/Consensus 2024, GraphRAG 2024, Dettmers 2024 |
5. Orchestration en Code (pas en Prompts)
| Aspect | Détail |
|---|---|
| Taux de succès | 90% du succès d’un système multi-agents dépend de l’orchestrateur Python/YAML |
| Pourquoi ça marche | La logique de coordination est déterministe. Les agents exécutent des tâches atomiques. |
| Conditions | Workflow codé en dur, agents spécialisés sur tâches étroites, état géré par l’orchestrateur |
| Références | Zhang 2025, Zhou 2024 (Code-as-Policy), Wu 2023 (AutoGen) |
Implémentation : Manager/Worker pattern. Le manager (code Python/YAML) décide qui fait quoi. Les workers (LLM) exécutent des tâches atomiques. Jamais de négociation entre agents.
6. Hybridation Neuro-Symbolique
| Aspect | Détail |
|---|---|
| Taux de succès | Succès historiques : AlphaGeometry (IMO), FunSearch (Cap Set), GNoME (cristaux) |
| Pourquoi ça marche | LLM pour générer des candidats, système formel (SAT/Prolog/DFT) pour valider. Le succès est garanti par les lois mathématiques. |
| Conditions | Domaine formalisable, vérificateur externe disponible, boucle de feedback |
| Références | Assael 2024 (AlphaGeometry), DeepMind FunSearch/GNoME 2023, Topin 2024 |
Étude de Cas : Get-Shit-Done
Pourquoi les frameworks d’orchestration fonctionnent
Des frameworks comme BMAD, Get-Shit-Done (GSD), ou GitHub Spec Kit montrent des résultats impressionnants en ingénierie logicielle. Analysons pourquoi.
Architecture de Get-Shit-Done
Le workflow GSD en détail
# 1. PHASE QUESTIONS — L'agent pose des questions jusqu'à comprendre
/gsd:new-project
# → Génère: PROJECT.md, REQUIREMENTS.md
# 2. PHASE RESEARCH — Agents parallèles explorent le domaine
# → Génère: .planning/research/
# 3. PHASE PLANNING — Création du roadmap
# → Génère: ROADMAP.md, STATE.md
# → VALIDATION HUMAINE: "Approve the roadmap"
# 4. PHASE CONTEXT — Capture des préférences avant implémentation
/gsd:context
# → Génère: CONTEXT.md
# "Visual features → Layout, density, interactions, empty states"
# "APIs/CLIs → Response format, flags, error handling"
# 5. PHASE BUILD — Exécution avec commits atomiques
/gsd:build
# → Chaque tâche = 1 commit
# abc123f docs(08-02): complete user registration plan
# def456g feat(08-02): add email confirmation flow
# hij789k feat(08-02): implement password hashing
Pourquoi GSD fonctionne : Mapping avec les principes
| Ce que fait GSD | Principe appliqué |
|---|---|
Workflows définis en fichiers .md et code Node.js | ✅ Orchestration déterministe — La logique est dans le code, pas dans les prompts |
| Chaque agent a un rôle unique (Questions, Research, Planning, Build) | ✅ Spécialisation stricte — Un agent = une tâche |
| ”You approve the roadmap” avant le build | ✅ Human-in-the-loop — Validation humaine à chaque phase |
PROJECT.md, REQUIREMENTS.md, ROADMAP.md | ✅ Sortie structurée — Documents avec format défini |
| Compilateur, tests, linter, git | ✅ Boucle fermée — Feedback déterministe |
| Commits atomiques par tâche | ✅ Fail fast — Traçabilité, rollback possible |
| ”Your main context window stays at 30-40%” | ✅ Contexte minimal — Subagents avec contextes frais |
Ce que GSD ne fait PAS
❌ L'agent ne décide PAS quand passer à la phase suivante
→ L'orchestrateur (code) décide
❌ Les agents ne négocient PAS entre eux
→ Ils suivent un workflow séquentiel codé
❌ L'agent ne s'auto-corrige PAS sans feedback
→ Le compilateur/tests fournissent le feedback
❌ L'agent ne "planifie" PAS de manière autonome
→ Il génère des candidats que l'humain valide
La leçon
GSD ne prouve pas que “les agents marchent maintenant”.
GSD prouve que quand on structure correctement (orchestration codée + spécialisation + feedback déterministe + human-in-loop), ça marche dans les domaines avec vérificateurs automatiques.
L’ingénierie logicielle est le sweet spot des agents IA car toutes les conditions de succès sont naturellement réunies :
| Condition de succès | Présente en dev ? |
|---|---|
| Vérificateur automatique | ✅ Compilateur, linter, tests |
| Sortie structurée | ✅ Code = format formel |
| Patterns mémorisés | ✅ Milliards de lignes dans les données d’entraînement |
| Feedback déterministe | ✅ “Error on line 42” est non-ambigu |
| Contexte localisable | ✅ Fichiers, fonctions, classes |
Ce Qui Ne Fonctionne Pas
Les patterns suivants semblent prometteurs mais échouent de manière structurelle.
1. Auto-Correction Sans Feedback Externe
| Aspect | Détail |
|---|---|
| Taux d’échec | L’agent valide ses propres erreurs ou en crée de nouvelles dans 60-80% des cas |
| Pourquoi ça échoue | Mêmes poids pour générer et critiquer = mêmes biais. Biais de confirmation. Sycophancy. |
| Alternative | Feedback externe déterministe : compilateur, tests, simulateur, vérificateur formel |
| Références | Huang 2024, Madaan 2023, Valmeekam 2024, Liu 2024 |
⚠️ PIÈGE : “L’agent va se relire et corriger ses erreurs” est une illusion. Sans signal externe, l’agent ne peut pas distinguer une erreur d’une réponse correcte.
2. Planification Autonome Multi-Étapes
| Aspect | Détail |
|---|---|
| Taux d’échec | Effondrement de 90% sur benchmarks dès que les noms des objets changent |
| Pourquoi ça échoue | Les LLM génèrent token par token sans world model. Pas de backtracking. |
| Alternative | Planificateur symbolique (PDDL) ou plan → code exécutable avec assertions |
| Références | Kambhampati 2024, Valmeekam 2023-2025, Stechly 2024 |
3. Multi-Agent Debate pour Améliorer la Précision
| Aspect | Détail |
|---|---|
| Taux d’échec | Amélioration uniquement si la solution est déjà mémorisée. Dégradation sinon. |
| Pourquoi ça échoue | Homogénéité des modèles = mêmes biais. Conformity bias. Echo chambers. |
| Alternative | Architecture Auteur/Critique avec vérificateur externe |
| Références | Liang 2023, Du 2024, Schwartz 2024 |
4. Miser sur le Scaling pour Résoudre les Limitations
| Aspect | Détail |
|---|---|
| Réalité | Les “capacités émergentes” sont des artefacts de métriques non-linéaires |
| Pourquoi ça échoue | Scaling améliore la connaissance factuelle, pas le raisonnement. Rendements décroissants exponentiels. |
| Alternative | Investir dans l’architecture (boucles de feedback, spécialisation) |
| Références | Schaeffer 2023, Kaplan 2024, Jain 2024 |
5. Agent Universel / Généraliste
| Aspect | Détail |
|---|---|
| Taux d’échec | Battu par des scripts déterministes sur 95% des tâches d’automatisation |
| Pourquoi ça échoue | Impossible sans spécialisation par domaine. Biais de position sur les outils. |
| Alternative | Spécialisation stricte : 3-5 outils max par agent, domaine étroit |
| Références | Zhang 2025, Song 2024, Yadav 2024 |
6. Coordination Multi-Agents “Émergente”
| Aspect | Détail |
|---|---|
| Taux d’échec | 80% des échanges entre agents sont redondants. Chaos sans script directeur. |
| Pourquoi ça échoue | Pas de Theory of Mind. Communication ambiguë. State synchronization impossible. |
| Alternative | Orchestration hiérarchique explicite. Manager (code) + Workers (LLM). |
| Références | Nguyen 2024, Zhang 2024, Li 2024 |
Matrice de Décision
Checklist : Votre Agent Va-t-il Fonctionner ?
| Question | Oui → | Non → |
|---|---|---|
| Y a-t-il un vérificateur externe déterministe ? | ✅ Viable | ⚠️ Risqué |
| La sortie est-elle contrainte par un schéma/format ? | Favorable | Attention |
| Le contexte tient-il en < 10 étapes / 3 fichiers ? | Faisable | Fragile |
| L’orchestration est-elle codée (pas en prompts) ? | Robuste | Instable |
| Chaque agent a-t-il ≤ 5 outils spécialisés ? | Optimal | Surcharge |
| Une supervision humaine est-elle prévue pour > 15% ? | Réaliste | Sur-promis |
| Le pattern est-il sur-représenté dans les données d’entraînement ? | Performant | Hallucinations |
Score :
- 7/7 = Excellent
- 5-6 = Viable avec précautions
- 3-4 = Prototype seulement
- < 3 = Repenser l’architecture
Arbre de décision rapide
7 Principes de Conception
1. Boucle Fermée Obligatoire
Tout agent qui génère du contenu doit avoir un vérificateur externe. Si vous ne pouvez pas définir un test automatique, réduisez la portée jusqu’à ce que ce soit possible.
- Code → Compilateur + Tests
- SQL → Exécution sur sandbox + validation schéma
- Texte structuré → Validation JSON Schema
- Décisions → Simulateur ou règles métier codées
2. Spécialisation Stricte
Un agent efficace fait une seule chose bien. La polyvalence est l’ennemi de la fiabilité.
- Maximum 3-5 outils par agent
- Domaine sémantique restreint (ontologie limitée)
- Sorties dans un format unique et contraint
- Micro-spécialisation éphémère : agents créés pour 30 secondes puis détruits
3. Orchestration Déterministe
La logique de coordination doit être dans le code, pas dans les prompts.
- Pattern Manager/Worker : le code décide, les LLM exécutent
- État centralisé géré par l’orchestrateur
- Jamais de négociation entre agents
- Timeouts et fallbacks explicites
4. Contexte Minimal
Plus le contexte est court, plus l’agent est fiable.
- < 10 étapes distinctes par tâche
- 1-3 fichiers maximum en contexte
- Purger la mémoire entre les tâches
- Éviter l’accumulation d’historique de conversation
5. Supervision Humaine Intégrée
Prévoir > 15% de supervision humaine. Investir dans la supervision plutôt que dans l’augmentation du modèle.
- Points de contrôle humain à chaque étape irréversible
- Validation humaine pour les cas hors distribution
- Métriques de confiance exposées à l’utilisateur
- Escalade automatique si confiance < seuil
6. Fail Fast, Fail Loud
L’agent doit échouer rapidement et explicitement plutôt que de produire des résultats silencieusement faux.
- Assertions à chaque étape
- Timeout strict (pas de boucles infinies de réflexion)
- Logs détaillés pour debugging
- Jamais de “réessayer silencieusement”
7. Tester en Conditions Réelles
Les benchmarks mentent. Seul le déploiement réel valide un agent.
- Métriques en production, pas sur benchmarks contaminés
- Tests avec variations (température, seed, reformulations)
- Monitoring de la dérive dans le temps
- A/B testing vs scripts déterministes
Récapitulatif par Cas d’Usage
✅ VIABLE — Automatisez
| Cas d’Usage | Pattern Recommandé |
|---|---|
| Génération de code avec tests | Boucle Compile/Test (BMAD, GSD) |
| NL → SQL/DSL/Terraform | Contrainte de sortie + validation |
| Extraction PDF → JSON | Schéma strict + validation |
| RAG sur corpus vérifié | Sources pré-filtrées + citations |
| Automatisation UI (formulaires) | DOM Tree + sélecteurs robustes |
| Data wrangling | Script génération + exécution |
| Workflow dev complet | Orchestration codée + human-in-loop |
⚠️ CONDITIONNEL — Avec précautions
| Cas d’Usage | Pattern Recommandé |
|---|---|
| Génération de présentations | Template + remplissage structuré |
| Analyse de documents longs | Chunking + agrégation supervisée |
| Résolution de bugs complexes | Contexte localisé + human-in-loop |
| Traduction | Validation grammaire + review humain |
❌ NON VIABLE — Repenser l’architecture
| Cas d’Usage | Alternative |
|---|---|
| Planification autonome long-terme | Utiliser planificateur symbolique |
| Raisonnement multi-étapes “from scratch” | Décomposer en étapes vérifiables |
| Auto-correction sans feedback | Ajouter vérificateur externe |
| Agent “généraliste” universel | Spécialiser par domaine |
| Coordination multi-agents émergente | Orchestration codée explicite |
| Plan marketing autonome | Agent génère variantes, humain choisit |
| Stratégie business autonome | Assistant avec validation humaine |
Conclusion
Ce qu’il faut retenir
Les agents IA ne sont pas des “intelligences autonomes”. Ce sont des systèmes de pattern-matching probabiliste qui fonctionnent remarquablement bien QUAND ils sont couplés à des vérificateurs déterministes et contraints dans un domaine spécialisé.
Le modèle mental correct
Le mot de la fin
Z
Construisez des systèmes où le LLM génère et où un vérificateur valide.
Toute autre architecture est, en 2025, une promesse non tenue.
Pour aller plus loin
- Méta-analyse complète : Capacités, Limitations et Patterns des Agents IA — Analyse systématique de publications avec tableaux de verdict par pattern
- Construire un Agent : L’Art d’Assembler les Bonnes Briques — Guide pratique des langages, frameworks d’orchestration, modèles et infrastructure
- Les 11 Patterns d’Orchestration Multi-Agents — Pipeline, Supervisor, Council, Swarm : quel pattern pour quel cas d’usage
- Agent Skills : Le Manuel d’Onboarding qui Transforme l’IA en Expert — Comment structurer les instructions pour des agents spécialisés
AiBrain