Aller au contenu
Retour

Google ouvre le capot des LLMs

Publié:  at  11:00 AM
Langues disponibles:

Google ouvre le capot des LLMs

Dans un récent papier (« Learning without training: The implicit dynamics of in-context learning »), les équipes de Google proposent une plongée mathématique dans les entrailles des Transformers.


Petit rappel technique rapide

Un LLM, ce sont des couches de Transformer empilées. Dans chaque couche, on retrouve deux blocs principaux :

Mais ce qui est fascinant, c’est que l’interaction entre ces couches ne se limite pas à un simple traitement séquentiel.


La découverte : une plasticité dynamique

Le papier démontre que le passage dans le FFN, combiné au contexte amené par l’attention, revient mathématiquement à créer temporairement une matrice de poids spécifique à l’entrée. En clair, l’architecture permet une adaptation dynamique à chaque situation, une forme de plasticité temporaire, uniquement déclenchée par le prompt.

Même avec des poids figés, le modèle semble s’adapter en temps réel à chaque nouvelle entrée. Une forme d’intelligence contextuelle !

La démonstration (non encore validée par les pairs) vise à mieux comprendre cette boîte noire, pour développer à terme des techniques de diagnostic, d‘“explicabilité”, et même d’optimisation ciblée.


Les perspectives ouvertes

Ce cadre formel ouvre plusieurs pistes concrètes :

Attention cependant à ne pas confondre description mathématique et compréhension profonde : ces observations doivent être le point de départ, pas l’aboutissement, de notre compréhension des LLMs.


Conclusion

Bref, les modèles sont puissants, mais c’est encore l’intelligence humaine qui devra en tirer tout le potentiel.


Le coin des experts 🤓

Mixtures-of-Experts (MoE)

Définition technique : Une architecture dans laquelle plusieurs sous-modèles (“experts”) sont disponibles, mais seuls quelques-uns sont activés pour chaque entrée, selon un mécanisme de sélection (gating), permettant de spécialiser les calculs tout en maîtrisant les coûts.

Avantages :

Exemple concret : Un modèle MoE pourrait avoir des experts spécialisés dans différents domaines (médecine, code, littérature) et n’activer que les plus pertinents selon la tâche.

Hyper-Networks

Définition technique : Un réseau qui ne fait pas de prédictions directement, mais qui génère dynamiquement les poids d’un autre réseau principal, permettant à ce dernier de s’adapter à chaque tâche ou contexte sans entraînement supplémentaire.

Applications potentielles :

Analogie : Un chef qui adapte sa recette en temps réel selon les ingrédients disponibles, sans avoir besoin de réapprendre à cuisiner.


Références



Article précédent
LLMs et données web : comment l’IA collecte, filtre et utilise l’information.
Article suivant
Publications de la semaine #30 - 2025