Aller au contenu
Retour

Roi - Homme + Femme = Reine : Comment l'IA Fait des Maths avec les Mots

Publié:  at  03:37 PM
Langues disponibles:

Roi - Homme + Femme = Reine : Comment l'IA Fait des Maths avec les Mots

Résumé exécutif

Cet article démystifie l’analogie célèbre “roi - homme + femme = reine” en expliquant comment les modèles d’IA, via les embeddings, représentent les mots comme des points dans un espace vectoriel multidimensionnel. Les traits sémantiques (royauté, genre, etc.) forment des axes, permettant des opérations arithmétiques qui capturent des relations linguistiques.

Points clés :

  • Mots → vecteurs numériques (embeddings statiques comme Word2Vec, contextuels dans Transformers).
  • Arithmétique vectorielle : soustraire/ajouter modifie les traits (ex. changer genre).
  • Apprentissage automatique à partir de contextes textuels.
  • Limites : simplifications pédagogiques, biais potentiels.

Idéal pour comprendre les bases de la sémantique computationnelle sans maths avancées.

Glossaire : Comprendre les termes techniques
Embedding
Représentation d’un mot (ou phrase) sous forme de vecteur numérique multidimensionnel capturant ses traits sémantiques. Les vecteurs proches correspondent à des sens similaires.
Word2Vec* : Algorithme d’apprentissage pour générer des embeddings statiques en analysant les contextes des mots dans de grands corpus textuels.
Transformer
Architecture de réseau neuronal (base de GPT, BERT) utilisant un mécanisme d’attention pour produire des embeddings contextuels, adaptatifs au contexte de la phrase.
Vecteur sémantique
Liste de nombres (ex. [0.9, -0.2, 0.7]) définissant la position d’un mot dans l’espace des significations.
Analogie vectorielle
Opération comme roi - homme + femme qui navigue dans l’espace sémantique pour trouver un mot analogue (reine).
Mécanisme d’attention
Composant des transformers qui pondère l’importance des mots voisins pour ajuster dynamiquement les embeddings.

Vous avez peut-être déjà vu cette équation étrange : “roi - homme + femme = reine”. Comment peut-on soustraire un mot d’un autre ? Comment l’intelligence artificielle peut-elle résoudre des problèmes de maths… avec du vocabulaire ? C’est comme si les mots avaient une existence mathématique cachée. Et c’est exactement le cas.

Les Mots Comme Points sur une Carte

Imaginez que vous devez placer tous les mots du français sur une carte géante. Pas n’importe comment : les mots similaires doivent être proches. “Chat” près de “chien”, “roi” près de “reine”, “Paris” près de “France”.

Pour y arriver, vous décidez d’utiliser des axes de caractéristiques. Comme sur une carte géographique avec latitude et longitude, chaque mot aura des coordonnées. Mais au lieu de “nord-sud” et “est-ouest”, vos axes représentent des traits de sens :

Le mot “roi” aurait des coordonnées comme :

Le mot “reine” serait presque au même endroit, mais avec un changement :

C’est ce qu’on appelle un embedding : transformer un mot en liste de nombres qui capturent son sens.

Le Problème Que Ça Résout

Pendant des décennies, les ordinateurs traitaient les mots comme des étiquettes sans lien. “Roi” et “reine” n’avaient rien en commun pour une machine. “Chat” et “chien” non plus.

Pour qu’une IA comprenne le langage, elle doit saisir que :

Les embeddings résolvent ce problème en donnant une géométrie au langage. Les mots similaires deviennent des points proches dans un espace mathématique. Et cette proximité permet des calculs.

L’Arithmétique des Mots Expliquée

Revenons à notre équation : roi - homme + femme = reine.

Imaginons trois axes simplifiés :

ÉtapeMotRoyautéGenreNotes
1roi9/102/10Masculin / Position : en haut à droite
2ahomme (à soustraire)5/102/10Neutre (peut être n’importe qui) / Masculin
2bAprès soustraction409-5 / 2-2 (neutre maintenant)
3afemme (à ajouter)5/108/10Neutre / Féminin
3bRésultat final984+5 / 0+8

On a enlevé le trait “masculin” et une partie de la normalité sociale, puis ajouté le trait “féminin”.

C’est exactement les coordonnées de reine !

Pourquoi Ça Marche : Les Directions Ont du Sens

La magie, c’est que les différences entre mots capturent des relations pures.

“Homme” - “femme” crée un vecteur (une flèche) qui représente le changement de genre masculin vers féminin. Cette flèche a la même direction et longueur que “roi” - “reine”, ou “oncle” - “tante”, ou “acteur” - “actrice”.

C’est comme si le langage avait des directions universelles :

En naviguant selon ces directions, on peut explorer les relations entre mots mathématiquement.

L’Exemple Fil Rouge : Paris et Capitales

Prenons un autre cas : “Paris - France + Italie = ?”

ÉtapeMotCapitaleFrancitéTailleNotes
1Paris10/109/108/10Point de départ
2aFrance (à soustraire)5/1010/109/10Pays, pas ville / Grand pays
2bAprès soustraction5-1-110-5 / 9-10 / 8-9
3aItalie (à ajouter)5/101/108/10Pas français
3bRésultat final10075+5 / -1+1 / -1+8

On a extrait “l’essence de capitale” en retirant le contexte français, puis ajouté le contexte italien.

Le mot le plus proche de ces coordonnées ? Rome.

Comment l’IA Apprend Ces Coordonnées

Vous vous demandez peut-être : qui décide que “roi” vaut 9/10 en royauté ? Personne.

L’IA apprend ces coordonnées automatiquement en lisant des milliards de phrases. Elle utilise un principe simple : les mots qui apparaissent dans des contextes similaires ont des sens similaires.

Si l’IA lit :

Elle en déduit que “roi”, “reine” et “monarque” doivent être proches dans l’espace des coordonnées, car ils partagent les mêmes voisins (“porte”, “couronne”).

Les algorithmes comme word2vec ajustent les coordonnées de millions de mots pour que cette règle soit respectée partout. Après des jours de calcul, les mots ont trouvé leur place naturelle sur la carte.

La Différence avec les Transformers Modernes

Jusqu’ici, on a parlé d’embeddings statiques : “roi” a toujours les mêmes coordonnées.

Mais les systèmes modernes comme ChatGPT utilisent des transformers, où les coordonnées changent selon le contexte.

Prenez le mot “banque” :

Dans un transformer, “banque” n’a pas une position fixe. Ses coordonnées sont recalculées pour chaque phrase, en fonction des mots voisins. Le mécanisme d’attention (un autre sujet fascinant) permet ces ajustements dynamiques.

L’arithmétique “roi - homme + femme” fonctionne toujours, mais elle devient plus subtile : les coordonnées de “roi” dépendent maintenant de la phrase où il apparaît.

Récapitulatif du Parcours

Vous venez de comprendre comment l’IA transforme les mots en mathématiques :

  1. Chaque mot devient un point dans un espace à centaines de dimensions
  2. Chaque dimension capture un trait de sens (royauté, genre, etc.)
  3. Les mots similaires sont des points proches
  4. Soustraire ou ajouter des mots modifie ces coordonnées
  5. Les relations entre mots deviennent des directions géométriques

“Roi - homme + femme = reine” n’est pas de la magie : c’est de la navigation dans l’espace du sens.

Simplifications Pédagogiques

Pour rendre ce concept accessible, j’ai fait plusieurs simplifications volontaires :

Ce qui a été simplifié :

  1. Le nombre de dimensions : J’ai parlé de 3-4 axes (royauté, genre, âge) alors que les vrais embeddings en ont 300 à 1000. Impossible de visualiser 768 dimensions, donc on réduit à ce que notre cerveau peut imaginer.

  2. L’interprétabilité des dimensions : J’ai nommé les axes (“royauté”, “genre”). En réalité, les dimensions sont apprises automatiquement et n’ont pas de nom clair. La dimension 247 ne signifie pas “royauté” de façon évidente. Certaines dimensions capturent des combinaisons floues de plusieurs traits.

  3. La précision des calculs : J’ai utilisé des scores sur 10 pour simplifier. Les vrais embeddings sont des nombres décimaux entre -1 et 1 (ou autres échelles), avec une précision extrême.

  4. La complexité de word2vec : J’ai dit “l’IA lit des phrases et apprend”. En réalité, word2vec utilise des réseaux de neurones qui prédisent les mots voisins, avec des fonctions mathématiques complexes (softmax, descente de gradient).

  5. Les transformers : J’ai mentionné que les embeddings deviennent contextuels, mais je n’ai pas expliqué le mécanisme d’attention qui permet ça. C’est un autre article entier.

Pourquoi ces simplifications sont OK :

Ce qui reste rigoureusement exact :

Si vous retenez que les mots ont une géométrie et que les relations entre mots sont des directions, vous avez compris l’essentiel. Le reste, ce sont des détails techniques pour raffiner cette intuition.

Pour Aller Plus Loin

Maintenant que vous avez saisi le principe, des questions s’ouvrent :

Vous avez maintenant les bases pour explorer ces territoires. L’arithmétique des mots n’est que le début d’un monde où le sens devient calculable.

Ressources Web



Article suivant
Construire un Agent : L'Art d'Assembler les Bonnes Briques