Guide Conception Agents IA 2025 - Patterns de...

Ce qui fonctionne, ce qui ne fonctionne pas, et pourquoi — basé sur l’analyse de publications (2023-2025).

Articles connexes : Méta-analyse détaillée des agents IA | Les briques fondamentales pour construire un agent | Les 11 patterns d’orchestration multi-agents

Guide de conception d'agents IA

Le Principe Fondamental

LA RÈGLE D’OR

Un agent IA réussit quand il génère du contenu qui sera validé par un système déterministe externe. Il échoue quand il doit valider lui-même son propre travail.

Cette règle explique 90% des succès et des échecs documentés. Elle se décline en 3 corollaires :

Boucle fermée = Succès probable : L’agent génère, un système externe valide (compilateur, test, simulateur)
Boucle ouverte = Échec probable : L’agent génère et s’auto-évalue sans feedback externe
Le locus de décision détermine le succès : Plus la logique est dans le code d’orchestration, plus le système est fiable

Le Paradoxe

Pourquoi le Code est Plus Facile que le Plan Marketing

C’est profondément contre-intuitif :

	Code	Plan Marketing
Perception humaine	”Difficile, technique"	"Facile, c’est juste du texte”
Réalité pour un LLM	✅ Facile à valider	❌ Impossible à valider automatiquement

Le code a un vérificateur automatique

Le feedback est : binaire, immédiat, précis, automatique.

Le plan marketing n’en a pas

Le feedback est : subjectif, différé (6 mois), ambigu, humain obligatoire.

La règle générale

Plus une tâche semble “créative” et “humaine”, plus elle est difficile pour un agent autonome.

Plus une tâche semble “technique” et “rigide”, plus elle est facile pour un agent autonome.

Domaine	Vérificateur automatique ?	Difficulté agent
Code	✅ Compilateur + Tests	Facile
SQL	✅ Exécution + Schéma	Facile
Maths formelles	✅ Solveur (Lean, Coq)	Facile
Extraction → JSON	✅ JSON Schema	Facile
Traduction EN→FR	⚠️ Partiel (grammaire)	Moyen
Plan marketing	❌ Aucun	Difficile
Stratégie business	❌ Aucun	Difficile
Rédaction créative	❌ Aucun	Difficile

Ce n’est pas une question de complexité intellectuelle. C’est une question de vérifiabilité automatique.

Ce Qui Fonctionne Vraiment

Les patterns suivants ont des preuves empiriques solides de succès en production.

1. Génération de Code avec Validation Automatique

Aspect	Détail
Taux de succès	85-95% sur tâches de complexité moyenne
Pourquoi ça marche	Le compilateur/testeur fournit un feedback déterministe. L’agent itère jusqu’au succès.
Conditions	Tests unitaires existants, contexte localisé (1-3 fichiers), spécification claire
Références	Olausson 2024, Zheng 2024, Jimenez 2024 (SWE-bench)

Implémentation : Boucle Générer → Exécuter tests → Analyser erreurs → Corriger → Répéter. Maximum 5 itérations. L’agent n’a pas besoin de “réfléchir”, il réagit aux messages d’erreur.

2. Traduction Langage Naturel → Format Structuré

Aspect	Détail
Taux de succès	90-98% pour SQL, Terraform, CSS, DSL métier
Pourquoi ça marche	Le format cible contraint l’espace des réponses possibles. La structure rigide rejette le bruit.
Conditions	Schéma/grammaire cible défini, exemples dans le prompt, validation syntaxique
Références	Dong 2024, Databricks 2024, Wang 2024 (Code-as-Policy)

3. Extraction d’Information vers Schéma Défini

Aspect	Détail
Taux de succès	> 95% pour extraction PDF/texte → JSON/SQL
Pourquoi ça marche	Tâche de “lecture ciblée” (métriques) plutôt que de synthèse créative. Le schéma force le rejet du bruit.
Conditions	Schéma de sortie explicite, champs obligatoires définis, validation de complétude
Références	Wang 2024 (ETL), He 2025 (méta-analyse), McKinsey AI 2025

4. RAG avec Sources Vérifiables

Aspect	Détail
Taux de succès	85-95% avec sources de haute qualité pré-filtrées
Pourquoi ça marche	L’ancrage (grounding) sur des sources indexées supprime l’hallucination factuelle. Le succès vient du filtrage en amont.
Conditions	Sources vérifiées, citations obligatoires, graphe de connaissances pour liens
Références	Elicit/Consensus 2024, GraphRAG 2024, Dettmers 2024

5. Orchestration en Code (pas en Prompts)

Aspect	Détail
Taux de succès	90% du succès d’un système multi-agents dépend de l’orchestrateur Python/YAML
Pourquoi ça marche	La logique de coordination est déterministe. Les agents exécutent des tâches atomiques.
Conditions	Workflow codé en dur, agents spécialisés sur tâches étroites, état géré par l’orchestrateur
Références	Zhang 2025, Zhou 2024 (Code-as-Policy), Wu 2023 (AutoGen)

Implémentation : Manager/Worker pattern. Le manager (code Python/YAML) décide qui fait quoi. Les workers (LLM) exécutent des tâches atomiques. Jamais de négociation entre agents.

6. Hybridation Neuro-Symbolique

Aspect	Détail
Taux de succès	Succès historiques : AlphaGeometry (IMO), FunSearch (Cap Set), GNoME (cristaux)
Pourquoi ça marche	LLM pour générer des candidats, système formel (SAT/Prolog/DFT) pour valider. Le succès est garanti par les lois mathématiques.
Conditions	Domaine formalisable, vérificateur externe disponible, boucle de feedback
Références	Assael 2024 (AlphaGeometry), DeepMind FunSearch/GNoME 2023, Topin 2024

Étude de Cas : Get-Shit-Done

Pourquoi les frameworks d’orchestration fonctionnent

Des frameworks comme BMAD, Get-Shit-Done (GSD), ou GitHub Spec Kit montrent des résultats impressionnants en ingénierie logicielle. Analysons pourquoi.

Architecture de Get-Shit-Done

Le workflow GSD en détail

# 1. PHASE QUESTIONS — L'agent pose des questions jusqu'à comprendre
/gsd:new-project
# → Génère: PROJECT.md, REQUIREMENTS.md

# 2. PHASE RESEARCH — Agents parallèles explorent le domaine
# → Génère: .planning/research/

# 3. PHASE PLANNING — Création du roadmap
# → Génère: ROADMAP.md, STATE.md
# → VALIDATION HUMAINE: "Approve the roadmap"

# 4. PHASE CONTEXT — Capture des préférences avant implémentation
/gsd:context
# → Génère: CONTEXT.md
# "Visual features → Layout, density, interactions, empty states"
# "APIs/CLIs → Response format, flags, error handling"

# 5. PHASE BUILD — Exécution avec commits atomiques
/gsd:build
# → Chaque tâche = 1 commit
# abc123f docs(08-02): complete user registration plan
# def456g feat(08-02): add email confirmation flow
# hij789k feat(08-02): implement password hashing

Pourquoi GSD fonctionne : Mapping avec les principes

Ce que fait GSD	Principe appliqué
Workflows définis en fichiers `.md` et code Node.js	✅ Orchestration déterministe — La logique est dans le code, pas dans les prompts
Chaque agent a un rôle unique (Questions, Research, Planning, Build)	✅ Spécialisation stricte — Un agent = une tâche
”You approve the roadmap” avant le build	✅ Human-in-the-loop — Validation humaine à chaque phase
`PROJECT.md`, `REQUIREMENTS.md`, `ROADMAP.md`	✅ Sortie structurée — Documents avec format défini
Compilateur, tests, linter, git	✅ Boucle fermée — Feedback déterministe
Commits atomiques par tâche	✅ Fail fast — Traçabilité, rollback possible
”Your main context window stays at 30-40%”	✅ Contexte minimal — Subagents avec contextes frais

Ce que GSD ne fait PAS

❌ L'agent ne décide PAS quand passer à la phase suivante
   → L'orchestrateur (code) décide

❌ Les agents ne négocient PAS entre eux
   → Ils suivent un workflow séquentiel codé

❌ L'agent ne s'auto-corrige PAS sans feedback
   → Le compilateur/tests fournissent le feedback

❌ L'agent ne "planifie" PAS de manière autonome
   → Il génère des candidats que l'humain valide

La leçon

GSD ne prouve pas que “les agents marchent maintenant”.

GSD prouve que quand on structure correctement (orchestration codée + spécialisation + feedback déterministe + human-in-loop), ça marche dans les domaines avec vérificateurs automatiques.

L’ingénierie logicielle est le sweet spot des agents IA car toutes les conditions de succès sont naturellement réunies :

Condition de succès	Présente en dev ?
Vérificateur automatique	✅ Compilateur, linter, tests
Sortie structurée	✅ Code = format formel
Patterns mémorisés	✅ Milliards de lignes dans les données d’entraînement
Feedback déterministe	✅ “Error on line 42” est non-ambigu
Contexte localisable	✅ Fichiers, fonctions, classes

Ce Qui Ne Fonctionne Pas

Les patterns suivants semblent prometteurs mais échouent de manière structurelle.

1. Auto-Correction Sans Feedback Externe

Aspect	Détail
Taux d’échec	L’agent valide ses propres erreurs ou en crée de nouvelles dans 60-80% des cas
Pourquoi ça échoue	Mêmes poids pour générer et critiquer = mêmes biais. Biais de confirmation. Sycophancy.
Alternative	Feedback externe déterministe : compilateur, tests, simulateur, vérificateur formel
Références	Huang 2024, Madaan 2023, Valmeekam 2024, Liu 2024

⚠️ PIÈGE : “L’agent va se relire et corriger ses erreurs” est une illusion. Sans signal externe, l’agent ne peut pas distinguer une erreur d’une réponse correcte.

2. Planification Autonome Multi-Étapes

Aspect	Détail
Taux d’échec	Effondrement de 90% sur benchmarks dès que les noms des objets changent
Pourquoi ça échoue	Les LLM génèrent token par token sans world model. Pas de backtracking.
Alternative	Planificateur symbolique (PDDL) ou plan → code exécutable avec assertions
Références	Kambhampati 2024, Valmeekam 2023-2025, Stechly 2024

3. Multi-Agent Debate pour Améliorer la Précision

Aspect	Détail
Taux d’échec	Amélioration uniquement si la solution est déjà mémorisée. Dégradation sinon.
Pourquoi ça échoue	Homogénéité des modèles = mêmes biais. Conformity bias. Echo chambers.
Alternative	Architecture Auteur/Critique avec vérificateur externe
Références	Liang 2023, Du 2024, Schwartz 2024

4. Miser sur le Scaling pour Résoudre les Limitations

Aspect	Détail
Réalité	Les “capacités émergentes” sont des artefacts de métriques non-linéaires
Pourquoi ça échoue	Scaling améliore la connaissance factuelle, pas le raisonnement. Rendements décroissants exponentiels.
Alternative	Investir dans l’architecture (boucles de feedback, spécialisation)
Références	Schaeffer 2023, Kaplan 2024, Jain 2024

5. Agent Universel / Généraliste

Aspect	Détail
Taux d’échec	Battu par des scripts déterministes sur 95% des tâches d’automatisation
Pourquoi ça échoue	Impossible sans spécialisation par domaine. Biais de position sur les outils.
Alternative	Spécialisation stricte : 3-5 outils max par agent, domaine étroit
Références	Zhang 2025, Song 2024, Yadav 2024

6. Coordination Multi-Agents “Émergente”

Aspect	Détail
Taux d’échec	80% des échanges entre agents sont redondants. Chaos sans script directeur.
Pourquoi ça échoue	Pas de Theory of Mind. Communication ambiguë. State synchronization impossible.
Alternative	Orchestration hiérarchique explicite. Manager (code) + Workers (LLM).
Références	Nguyen 2024, Zhang 2024, Li 2024

Matrice de Décision

Checklist : Votre Agent Va-t-il Fonctionner ?

Question	Oui →	Non →
Y a-t-il un vérificateur externe déterministe ?	✅ Viable	⚠️ Risqué
La sortie est-elle contrainte par un schéma/format ?	Favorable	Attention
Le contexte tient-il en < 10 étapes / 3 fichiers ?	Faisable	Fragile
L’orchestration est-elle codée (pas en prompts) ?	Robuste	Instable
Chaque agent a-t-il ≤ 5 outils spécialisés ?	Optimal	Surcharge
Une supervision humaine est-elle prévue pour > 15% ?	Réaliste	Sur-promis
Le pattern est-il sur-représenté dans les données d’entraînement ?	Performant	Hallucinations

Score :

7/7 = Excellent
5-6 = Viable avec précautions
3-4 = Prototype seulement
< 3 = Repenser l’architecture

Arbre de décision rapide

7 Principes de Conception

1. Boucle Fermée Obligatoire

Tout agent qui génère du contenu doit avoir un vérificateur externe. Si vous ne pouvez pas définir un test automatique, réduisez la portée jusqu’à ce que ce soit possible.

Code → Compilateur + Tests
SQL → Exécution sur sandbox + validation schéma
Texte structuré → Validation JSON Schema
Décisions → Simulateur ou règles métier codées

2. Spécialisation Stricte

Un agent efficace fait une seule chose bien. La polyvalence est l’ennemi de la fiabilité.

Maximum 3-5 outils par agent
Domaine sémantique restreint (ontologie limitée)
Sorties dans un format unique et contraint
Micro-spécialisation éphémère : agents créés pour 30 secondes puis détruits

3. Orchestration Déterministe

La logique de coordination doit être dans le code, pas dans les prompts.

Pattern Manager/Worker : le code décide, les LLM exécutent
État centralisé géré par l’orchestrateur
Jamais de négociation entre agents
Timeouts et fallbacks explicites

4. Contexte Minimal

Plus le contexte est court, plus l’agent est fiable.

< 10 étapes distinctes par tâche
1-3 fichiers maximum en contexte
Purger la mémoire entre les tâches
Éviter l’accumulation d’historique de conversation

5. Supervision Humaine Intégrée

Prévoir > 15% de supervision humaine. Investir dans la supervision plutôt que dans l’augmentation du modèle.

Points de contrôle humain à chaque étape irréversible
Validation humaine pour les cas hors distribution
Métriques de confiance exposées à l’utilisateur
Escalade automatique si confiance < seuil

6. Fail Fast, Fail Loud

L’agent doit échouer rapidement et explicitement plutôt que de produire des résultats silencieusement faux.

Assertions à chaque étape
Timeout strict (pas de boucles infinies de réflexion)
Logs détaillés pour debugging
Jamais de “réessayer silencieusement”

7. Tester en Conditions Réelles

Les benchmarks mentent. Seul le déploiement réel valide un agent.

Métriques en production, pas sur benchmarks contaminés
Tests avec variations (température, seed, reformulations)
Monitoring de la dérive dans le temps
A/B testing vs scripts déterministes

Récapitulatif par Cas d’Usage

✅ VIABLE — Automatisez

Cas d’Usage	Pattern Recommandé
Génération de code avec tests	Boucle Compile/Test (BMAD, GSD)
NL → SQL/DSL/Terraform	Contrainte de sortie + validation
Extraction PDF → JSON	Schéma strict + validation
RAG sur corpus vérifié	Sources pré-filtrées + citations
Automatisation UI (formulaires)	DOM Tree + sélecteurs robustes
Data wrangling	Script génération + exécution
Workflow dev complet	Orchestration codée + human-in-loop

⚠️ CONDITIONNEL — Avec précautions

Cas d’Usage	Pattern Recommandé
Génération de présentations	Template + remplissage structuré
Analyse de documents longs	Chunking + agrégation supervisée
Résolution de bugs complexes	Contexte localisé + human-in-loop
Traduction	Validation grammaire + review humain

❌ NON VIABLE — Repenser l’architecture

Cas d’Usage	Alternative
Planification autonome long-terme	Utiliser planificateur symbolique
Raisonnement multi-étapes “from scratch”	Décomposer en étapes vérifiables
Auto-correction sans feedback	Ajouter vérificateur externe
Agent “généraliste” universel	Spécialiser par domaine
Coordination multi-agents émergente	Orchestration codée explicite
Plan marketing autonome	Agent génère variantes, humain choisit
Stratégie business autonome	Assistant avec validation humaine

Conclusion

Ce qu’il faut retenir

Les agents IA ne sont pas des “intelligences autonomes”. Ce sont des systèmes de pattern-matching probabiliste qui fonctionnent remarquablement bien QUAND ils sont couplés à des vérificateurs déterministes et contraints dans un domaine spécialisé.

Le modèle mental correct

Le mot de la fin

Construisez des systèmes où le LLM génère et où un vérificateur valide.

Toute autre architecture est, en 2025, une promesse non tenue.

Pour aller plus loin

Méta-analyse complète : Capacités, Limitations et Patterns des Agents IA — Analyse systématique de publications avec tableaux de verdict par pattern
Construire un Agent : L’Art d’Assembler les Bonnes Briques — Guide pratique des langages, frameworks d’orchestration, modèles et infrastructure
Les 11 Patterns d’Orchestration Multi-Agents — Pipeline, Supervisor, Council, Swarm : quel pattern pour quel cas d’usage
Agent Skills : Le Manuel d’Onboarding qui Transforme l’IA en Expert — Comment structurer les instructions pour des agents spécialisés

Guide de Conception d'Agents IA : Ce qui Fonctionne, Ce qui Échoue