Aller au contenu
Retour

Guide de Conception d'Agents IA : Ce qui Fonctionne, Ce qui Échoue

Publié:  at  10:00 AM
Langues disponibles:

Ce qui fonctionne, ce qui ne fonctionne pas, et pourquoi — basé sur l’analyse de publications (2023-2025).

Articles connexes : Méta-analyse détaillée des agents IA | Les briques fondamentales pour construire un agent | Les 11 patterns d’orchestration multi-agents

Guide de conception d'agents IA

Le Principe Fondamental

LA RÈGLE D’OR

Un agent IA réussit quand il génère du contenu qui sera validé par un système déterministe externe. Il échoue quand il doit valider lui-même son propre travail.

Cette règle explique 90% des succès et des échecs documentés. Elle se décline en 3 corollaires :


Le Paradoxe

Pourquoi le Code est Plus Facile que le Plan Marketing

C’est profondément contre-intuitif :

CodePlan Marketing
Perception humaine”Difficile, technique""Facile, c’est juste du texte”
Réalité pour un LLM✅ Facile à valider❌ Impossible à valider automatiquement

Le code a un vérificateur automatique

Agent génère du code Compilateur → "Error line 42" Agent corrige Tests → "1 failed" ✓ Tous les tests passent SUCCÈS OBJECTIF

Le feedback est : binaire, immédiat, précis, automatique.

Le plan marketing n’en a pas

Agent génère un plan marketing ??? Comment valider ? L'agent se relit... "Oui ça me semble bien" ✗ Aucune validation objective Biais de confirmation

Le feedback est : subjectif, différé (6 mois), ambigu, humain obligatoire.

La règle générale

Plus une tâche semble “créative” et “humaine”, plus elle est difficile pour un agent autonome.

Plus une tâche semble “technique” et “rigide”, plus elle est facile pour un agent autonome.

DomaineVérificateur automatique ?Difficulté agent
Code✅ Compilateur + TestsFacile
SQL✅ Exécution + SchémaFacile
Maths formelles✅ Solveur (Lean, Coq)Facile
Extraction → JSON✅ JSON SchemaFacile
Traduction EN→FR⚠️ Partiel (grammaire)Moyen
Plan marketing❌ AucunDifficile
Stratégie business❌ AucunDifficile
Rédaction créative❌ AucunDifficile

Ce n’est pas une question de complexité intellectuelle. C’est une question de vérifiabilité automatique.


Ce Qui Fonctionne Vraiment

Les patterns suivants ont des preuves empiriques solides de succès en production.

1. Génération de Code avec Validation Automatique

AspectDétail
Taux de succès85-95% sur tâches de complexité moyenne
Pourquoi ça marcheLe compilateur/testeur fournit un feedback déterministe. L’agent itère jusqu’au succès.
ConditionsTests unitaires existants, contexte localisé (1-3 fichiers), spécification claire
RéférencesOlausson 2024, Zheng 2024, Jimenez 2024 (SWE-bench)

Implémentation : Boucle Générer → Exécuter tests → Analyser erreurs → Corriger → Répéter. Maximum 5 itérations. L’agent n’a pas besoin de “réfléchir”, il réagit aux messages d’erreur.

2. Traduction Langage Naturel → Format Structuré

AspectDétail
Taux de succès90-98% pour SQL, Terraform, CSS, DSL métier
Pourquoi ça marcheLe format cible contraint l’espace des réponses possibles. La structure rigide rejette le bruit.
ConditionsSchéma/grammaire cible défini, exemples dans le prompt, validation syntaxique
RéférencesDong 2024, Databricks 2024, Wang 2024 (Code-as-Policy)

3. Extraction d’Information vers Schéma Défini

AspectDétail
Taux de succès> 95% pour extraction PDF/texte → JSON/SQL
Pourquoi ça marcheTâche de “lecture ciblée” (métriques) plutôt que de synthèse créative. Le schéma force le rejet du bruit.
ConditionsSchéma de sortie explicite, champs obligatoires définis, validation de complétude
RéférencesWang 2024 (ETL), He 2025 (méta-analyse), McKinsey AI 2025

4. RAG avec Sources Vérifiables

AspectDétail
Taux de succès85-95% avec sources de haute qualité pré-filtrées
Pourquoi ça marcheL’ancrage (grounding) sur des sources indexées supprime l’hallucination factuelle. Le succès vient du filtrage en amont.
ConditionsSources vérifiées, citations obligatoires, graphe de connaissances pour liens
RéférencesElicit/Consensus 2024, GraphRAG 2024, Dettmers 2024

5. Orchestration en Code (pas en Prompts)

AspectDétail
Taux de succès90% du succès d’un système multi-agents dépend de l’orchestrateur Python/YAML
Pourquoi ça marcheLa logique de coordination est déterministe. Les agents exécutent des tâches atomiques.
ConditionsWorkflow codé en dur, agents spécialisés sur tâches étroites, état géré par l’orchestrateur
RéférencesZhang 2025, Zhou 2024 (Code-as-Policy), Wu 2023 (AutoGen)

Implémentation : Manager/Worker pattern. Le manager (code Python/YAML) décide qui fait quoi. Les workers (LLM) exécutent des tâches atomiques. Jamais de négociation entre agents.

6. Hybridation Neuro-Symbolique

AspectDétail
Taux de succèsSuccès historiques : AlphaGeometry (IMO), FunSearch (Cap Set), GNoME (cristaux)
Pourquoi ça marcheLLM pour générer des candidats, système formel (SAT/Prolog/DFT) pour valider. Le succès est garanti par les lois mathématiques.
ConditionsDomaine formalisable, vérificateur externe disponible, boucle de feedback
RéférencesAssael 2024 (AlphaGeometry), DeepMind FunSearch/GNoME 2023, Topin 2024

Étude de Cas : Get-Shit-Done

Pourquoi les frameworks d’orchestration fonctionnent

Des frameworks comme BMAD, Get-Shit-Done (GSD), ou GitHub Spec Kit montrent des résultats impressionnants en ingénierie logicielle. Analysons pourquoi.

Architecture de Get-Shit-Done

ORCHESTRATEUR (Code Node.js) Questions Agent Research Agents Planning Agent Build Agents PROJECT.md REQUIREMENTS.md .planning/research/ ROADMAP.md STATE.md Commits atomiques VALIDATION HUMAINE (Approbation à chaque phase) VÉRIFICATEURS DÉTERMINISTES Compilateur • Tests • Linter • Git Feedback binaire et immédiat

Le workflow GSD en détail

# 1. PHASE QUESTIONS — L'agent pose des questions jusqu'à comprendre
/gsd:new-project
# → Génère: PROJECT.md, REQUIREMENTS.md

# 2. PHASE RESEARCH — Agents parallèles explorent le domaine
# → Génère: .planning/research/

# 3. PHASE PLANNING — Création du roadmap
# → Génère: ROADMAP.md, STATE.md
# → VALIDATION HUMAINE: "Approve the roadmap"

# 4. PHASE CONTEXT — Capture des préférences avant implémentation
/gsd:context
# → Génère: CONTEXT.md
# "Visual features → Layout, density, interactions, empty states"
# "APIs/CLIs → Response format, flags, error handling"

# 5. PHASE BUILD — Exécution avec commits atomiques
/gsd:build
# → Chaque tâche = 1 commit
# abc123f docs(08-02): complete user registration plan
# def456g feat(08-02): add email confirmation flow
# hij789k feat(08-02): implement password hashing

Pourquoi GSD fonctionne : Mapping avec les principes

Ce que fait GSDPrincipe appliqué
Workflows définis en fichiers .md et code Node.jsOrchestration déterministe — La logique est dans le code, pas dans les prompts
Chaque agent a un rôle unique (Questions, Research, Planning, Build)Spécialisation stricte — Un agent = une tâche
”You approve the roadmap” avant le buildHuman-in-the-loop — Validation humaine à chaque phase
PROJECT.md, REQUIREMENTS.md, ROADMAP.mdSortie structurée — Documents avec format défini
Compilateur, tests, linter, gitBoucle fermée — Feedback déterministe
Commits atomiques par tâcheFail fast — Traçabilité, rollback possible
”Your main context window stays at 30-40%”Contexte minimal — Subagents avec contextes frais

Ce que GSD ne fait PAS

❌ L'agent ne décide PAS quand passer à la phase suivante
   → L'orchestrateur (code) décide

❌ Les agents ne négocient PAS entre eux
   → Ils suivent un workflow séquentiel codé

❌ L'agent ne s'auto-corrige PAS sans feedback
   → Le compilateur/tests fournissent le feedback

❌ L'agent ne "planifie" PAS de manière autonome
   → Il génère des candidats que l'humain valide

La leçon

GSD ne prouve pas que “les agents marchent maintenant”.

GSD prouve que quand on structure correctement (orchestration codée + spécialisation + feedback déterministe + human-in-loop), ça marche dans les domaines avec vérificateurs automatiques.

L’ingénierie logicielle est le sweet spot des agents IA car toutes les conditions de succès sont naturellement réunies :

Condition de succèsPrésente en dev ?
Vérificateur automatique✅ Compilateur, linter, tests
Sortie structurée✅ Code = format formel
Patterns mémorisés✅ Milliards de lignes dans les données d’entraînement
Feedback déterministe✅ “Error on line 42” est non-ambigu
Contexte localisable✅ Fichiers, fonctions, classes

Ce Qui Ne Fonctionne Pas

Les patterns suivants semblent prometteurs mais échouent de manière structurelle.

1. Auto-Correction Sans Feedback Externe

AspectDétail
Taux d’échecL’agent valide ses propres erreurs ou en crée de nouvelles dans 60-80% des cas
Pourquoi ça échoueMêmes poids pour générer et critiquer = mêmes biais. Biais de confirmation. Sycophancy.
AlternativeFeedback externe déterministe : compilateur, tests, simulateur, vérificateur formel
RéférencesHuang 2024, Madaan 2023, Valmeekam 2024, Liu 2024

⚠️ PIÈGE : “L’agent va se relire et corriger ses erreurs” est une illusion. Sans signal externe, l’agent ne peut pas distinguer une erreur d’une réponse correcte.

2. Planification Autonome Multi-Étapes

AspectDétail
Taux d’échecEffondrement de 90% sur benchmarks dès que les noms des objets changent
Pourquoi ça échoueLes LLM génèrent token par token sans world model. Pas de backtracking.
AlternativePlanificateur symbolique (PDDL) ou plan → code exécutable avec assertions
RéférencesKambhampati 2024, Valmeekam 2023-2025, Stechly 2024

3. Multi-Agent Debate pour Améliorer la Précision

AspectDétail
Taux d’échecAmélioration uniquement si la solution est déjà mémorisée. Dégradation sinon.
Pourquoi ça échoueHomogénéité des modèles = mêmes biais. Conformity bias. Echo chambers.
AlternativeArchitecture Auteur/Critique avec vérificateur externe
RéférencesLiang 2023, Du 2024, Schwartz 2024

4. Miser sur le Scaling pour Résoudre les Limitations

AspectDétail
RéalitéLes “capacités émergentes” sont des artefacts de métriques non-linéaires
Pourquoi ça échoueScaling améliore la connaissance factuelle, pas le raisonnement. Rendements décroissants exponentiels.
AlternativeInvestir dans l’architecture (boucles de feedback, spécialisation)
RéférencesSchaeffer 2023, Kaplan 2024, Jain 2024

5. Agent Universel / Généraliste

AspectDétail
Taux d’échecBattu par des scripts déterministes sur 95% des tâches d’automatisation
Pourquoi ça échoueImpossible sans spécialisation par domaine. Biais de position sur les outils.
AlternativeSpécialisation stricte : 3-5 outils max par agent, domaine étroit
RéférencesZhang 2025, Song 2024, Yadav 2024

6. Coordination Multi-Agents “Émergente”

AspectDétail
Taux d’échec80% des échanges entre agents sont redondants. Chaos sans script directeur.
Pourquoi ça échouePas de Theory of Mind. Communication ambiguë. State synchronization impossible.
AlternativeOrchestration hiérarchique explicite. Manager (code) + Workers (LLM).
RéférencesNguyen 2024, Zhang 2024, Li 2024

Matrice de Décision

Checklist : Votre Agent Va-t-il Fonctionner ?

QuestionOui →Non →
Y a-t-il un vérificateur externe déterministe ?✅ Viable⚠️ Risqué
La sortie est-elle contrainte par un schéma/format ?FavorableAttention
Le contexte tient-il en < 10 étapes / 3 fichiers ?FaisableFragile
L’orchestration est-elle codée (pas en prompts) ?RobusteInstable
Chaque agent a-t-il ≤ 5 outils spécialisés ?OptimalSurcharge
Une supervision humaine est-elle prévue pour > 15% ?RéalisteSur-promis
Le pattern est-il sur-représenté dans les données d’entraînement ?PerformantHallucinations

Score :

Arbre de décision rapide

Votre tâche a-t-elle un vérificateur automatique ? OUI (code, SQL, JSON, maths) Automatisez agressivement Générer → Vérifier → Corriger Ex: BMAD, GSD NON (stratégie, créatif, conseil) Pouvez-vous en créer un ? OUI (métriques, A/B, règles) Créez le vérificateur puis automatisez NON (jugement subjectif) Agent ASSISTE Humain DÉCIDE Feedback différé (semaines/mois) ? Itération impossible Supervision humaine intensive requise

7 Principes de Conception

1. Boucle Fermée Obligatoire

Tout agent qui génère du contenu doit avoir un vérificateur externe. Si vous ne pouvez pas définir un test automatique, réduisez la portée jusqu’à ce que ce soit possible.

2. Spécialisation Stricte

Un agent efficace fait une seule chose bien. La polyvalence est l’ennemi de la fiabilité.

3. Orchestration Déterministe

La logique de coordination doit être dans le code, pas dans les prompts.

4. Contexte Minimal

Plus le contexte est court, plus l’agent est fiable.

5. Supervision Humaine Intégrée

Prévoir > 15% de supervision humaine. Investir dans la supervision plutôt que dans l’augmentation du modèle.

6. Fail Fast, Fail Loud

L’agent doit échouer rapidement et explicitement plutôt que de produire des résultats silencieusement faux.

7. Tester en Conditions Réelles

Les benchmarks mentent. Seul le déploiement réel valide un agent.


Récapitulatif par Cas d’Usage

✅ VIABLE — Automatisez

Cas d’UsagePattern Recommandé
Génération de code avec testsBoucle Compile/Test (BMAD, GSD)
NL → SQL/DSL/TerraformContrainte de sortie + validation
Extraction PDF → JSONSchéma strict + validation
RAG sur corpus vérifiéSources pré-filtrées + citations
Automatisation UI (formulaires)DOM Tree + sélecteurs robustes
Data wranglingScript génération + exécution
Workflow dev completOrchestration codée + human-in-loop

⚠️ CONDITIONNEL — Avec précautions

Cas d’UsagePattern Recommandé
Génération de présentationsTemplate + remplissage structuré
Analyse de documents longsChunking + agrégation supervisée
Résolution de bugs complexesContexte localisé + human-in-loop
TraductionValidation grammaire + review humain

❌ NON VIABLE — Repenser l’architecture

Cas d’UsageAlternative
Planification autonome long-termeUtiliser planificateur symbolique
Raisonnement multi-étapes “from scratch”Décomposer en étapes vérifiables
Auto-correction sans feedbackAjouter vérificateur externe
Agent “généraliste” universelSpécialiser par domaine
Coordination multi-agents émergenteOrchestration codée explicite
Plan marketing autonomeAgent génère variantes, humain choisit
Stratégie business autonomeAssistant avec validation humaine

Conclusion

Ce qu’il faut retenir

Les agents IA ne sont pas des “intelligences autonomes”. Ce sont des systèmes de pattern-matching probabiliste qui fonctionnent remarquablement bien QUAND ils sont couplés à des vérificateurs déterministes et contraints dans un domaine spécialisé.

Le modèle mental correct

AGENT Générateur de candidats + VÉRIFICATEUR Sélecteur de solutions valides + ORCHESTRATEUR Logique de coordination codée très bon pour ça indispensable non négociable SYSTÈME FIABLE

Le mot de la fin

Z

Construisez des systèmes où le LLM génère et où un vérificateur valide.

Toute autre architecture est, en 2025, une promesse non tenue.


Pour aller plus loin



Article précédent
Analyse : Capacités, Limitations et Patterns Prématurés des Agents IA
Article suivant
Les 11 Patterns d'Orchestration Multi-Agents : Guide Complet