Comment les LLM
fonctionnent réellement

Un parcours complet sur la construction des grands modèles de langage — du texte brut d'internet à un assistant conversationnel. Basé sur l'analyse technique d'Andrej Karpathy .

Traduction Traduction et adaptation en français de la création originale de ynarwal , avec l'accord de son auteur, par Bertrand Formet pour uneIAparjour.fr , produite avec l'aide de Claude (Anthropic).

Construit à partir de la conférence d'Andrej Karpathy « Intro to Large Language Models » — les faits, chiffres et cadres conceptuels en sont issus. Visualisations interactives construites avec l'aide de l'IA.

Le point essentiel à retenir : chaque mot généré est un échantillon probabiliste — un tirage au sort biaisé, à l'échelle de 100 000 possibilités, répété des milliards de fois.
Transcription complète de la conférence

Tokens d'entraînement: 15T
Paramètres: 405B
Données textuelles: 44 To
Vocabulaire de tokens: 100K

Chiffres représentatifs des modèles de pointe vers 2024 — les valeurs exactes évoluent à chaque nouvelle version. L'ordre de grandeur est le plus important, pas la précision.

Utilisateur : Qu'y a-t-il derrière cette zone de texte ?

Télécharger
l'internet

La première étape consiste à collecter une quantité massive de textes. Des organisations comme Common Crawl parcourent le web depuis 2007 — indexant 2,7 milliards de pages en 2024. Ces données brutes sont ensuite filtrées pour constituer un jeu de données de haute qualité comme FineWeb.

L'objectif : une très grande quantité de documents de haute qualité et diversifiés. Après un filtrage intensif, on obtient environ 44 téraoctets — soit l'équivalent d'une grosse dizaine de disques durs grand public — représentant environ 15 000 milliards de tokens.

Point clé La qualité et la diversité des données d'entraînement ont plus d'impact sur le modèle final que presque tout le reste. Des données médiocres produisent des résultats médiocres — mais à l'échelle de milliers de milliards de tokens.

Cliquez sur une étape pour en savoir plus

🌐 Common Crawl

2,7 Md de pages web · HTML brut · Depuis 2007

Une organisation à but non lucratif qui parcourt le web et met ses données à disposition gratuitement. Ses robots suivent les liens depuis des pages de départ, indexant internet de manière récursive. L'archive brute représente des pétaoctets de fichiers WARC compressés (format de fichier standard pour l'archivage de contenu web) contenant du HTML brut. Site : Common Crawl

🚫 Filtrage des URL

Listes noires · Malwares · Spam · Contenu adulte

Des listes noires de sites malveillants, réseaux de spam, contenus adultes, pages publicitaires et domaines de faible qualité sont appliquées. Des domaines entiers peuvent être supprimés. C'est le filtre le moins coûteux, donc il s'exécute en premier.

📄 Extraction du texte

HTML → texte propre · Suppression navigation & CSS

Le HTML brut contient des balises <div>, du CSS, du JavaScript, des menus de navigation et des publicités. Des analyseurs syntaxiques extraient uniquement le contenu textuel pertinent. C'est plus difficile qu'il n'y paraît — des règles empiriques déterminent ce qui est « contenu » et ce qui est « habillage ».

🌍 Filtrage linguistique

Conserver les pages ≥65 % dans la langue cible

Un classificateur linguistique estime la langue de chaque page. Les pages comportant moins de 65 % de contenu dans la langue cible sont éliminées. C'est un choix de conception : filtrer agressivement pour une seule langue ou entraîner un modèle multilingue.

♻️ Déduplication

Correspondance exacte & floue · Réduire la répétition

Des pages identiques ou quasi-identiques apparaissent des millions de fois sur internet (articles copiés, contenus génériques...). S'entraîner sur le même texte de manière répétée provoque de la mémorisation. La déduplication utilise MinHash (technique permettant d'estimer rapidement la similitude de deux ensembles) et des techniques de correspondance exacte pour éliminer les doublons.

🔒 Suppression des données à caractère personnel

Noms · Adresses · Numéros sensibles · Emails

Les données à caractère personnel (DCP) sont détectées, soit elles peuvent et sont expurgées, soit la page est supprimée. Des expressions régulières et des classificateurs de Machine Learning repèrent les numéros de téléphone, e-mails, numéros de comptes bancaires ou de sécurité sociale, adresses postales et personnes nommées.

✅ Jeu de données FineWeb

44 To · 15 000 Mds de tokens · Haute qualité

Le jeu de données final filtré. Articles sur des tornades en 2012, faits médicaux, histoire, code, recettes, articles scientifiques — toute l'étendue de la connaissance humaine exprimée en texte. C'est ce corpus qui servira à l'entraînement.

Chapitre 1 · Pré-entraînement · Étape 2

Tokenisation

Les réseaux de neurones ne peuvent pas traiter du texte brut — ils ont besoin de nombres. La solution est la tokenisation : découper le texte en « tokens » (sous-mots) et attribuer à chacun un identifiant numérique.

GPT-4 utilise un vocabulaire de 100 277 tokens, construit via l'algorithme Byte Pair Encoding (BPE). Le BPE part des octets individuels — l'équivalent numérique de chaque caractère — puis regroupe progressivement les combinaisons les plus fréquentes jusqu'à former des morceaux de mots reconnaissables.

Pourquoi ne pas utiliser des mots entiers ? Les mots ont des variantes infinies. « courir », « courant », « coureur » seraient 3 entrées séparées. Les sous-mots partagent des racines : « cour » + « ir », « cour » + « eur ». Ce système permet aussi de gérer les néologismes, les fautes de frappe et plusieurs langues simultanément.

L'algorithme Byte Pair Encoding (BPE) en action

Étape 1 sur 5

Tester la "tokenisation" selon différents modèles de langage → tiktokenizer.vercel.app

Chapitre 1 · Pré-entraînement · Étape 3

Entraîner le
réseau de neurones

Le réseau de neurones Transformer est initialisé avec des paramètres aléatoires — comme une table de mixage avec des milliards de « curseurs ». L'entraînement ajuste ces curseurs pour que le réseau devienne meilleur à prédire le prochain token dans n'importe quelle séquence.

À chaque étape d'entraînement : échantillonner une fenêtre de tokens → alimenter le réseau de neurones → comparer la prédiction au token suivant choisi → ajuster légèrement tous les paramètres dans la bonne direction. Répéter des milliards de fois.

La perte — un seul nombre mesurant l'erreur de prédiction — diminue régulièrement à mesure que le modèle apprend les modèles statistiques du langage humain.

Ordre de grandeur GPT-2 (2019) : 1,5 Md de paramètres, 100 Mds de tokens, ~40 000 $ de coût d'entraînement.
Aujourd'hui : même qualité pour ~100 $. Llama 3 : 405 Mds de paramètres, 15 000 Mds de tokens. Modèles de langage de pointe actuels : des centaines de milliards de paramètres, des milliers de milliards de tokens.

Architecture Transformer

Qu'est-ce qu'un embedding ? Chaque identifiant de token correspond à un vecteur d'environ 1 000 à 4 000 nombres appelé "embedding". Imaginez-le comme un point dans un espace abstrait à des milliers de dimensions — placé au hasard, puis déplacé progressivement par l'entraînement jusqu'à refléter son sens. Les couches d'attention intègrent ensuite le contexte des tokens environnants, si bien qu'en profondeur dans le réseau, « lettre » dans « une lettre de l'alphabet » et « lettre » dans « la lettre déposée par la factrice » portent des représentations totalement différentes. Le mot « lettre » n'a pas un sens fixe — c'est le contexte qui lui donne son sens à chaque fois.

Sélectionnez une étape d'entraînement pour voir la qualité des sorties du modèle

Perte d'entraînement ↓

4.8

Score d'erreur de prédiction

500

Étape d'entraînement

Sortie du modèle à cette étape

le modèle apprendant mais confusion encore le wqp mxr modèle bns prédit...

Ce que le modèle apprend À l'étape 1 : bruit pur. À la 500ème étape : une cohérence locale apparaît. À la 32000 étape : du texte fluide. Le modèle modélise et mémorise la grammaire, les faits, les raisonnements — le tout implicitement par prédiction de token.

Chapitre 1 · Pré-entraînement · Étape 4

Inférence &
échantillonnage

Une fois entraîné, le réseau génère du texte de manière autoregressive : alimenter une séquence de tokens → obtenir une distribution de probabilité sur les 100 000 tokens possibles suivants → en échantillonner un → l'ajouter → recommencer.

Ce processus est aléatoire — la même instruction génère des sorties différentes à chaque fois, car on tire au sort selon des probabilités biaisées. Les tokens plus probables ont plus de chances d'être choisis, sans garantie.

La température contrôle l'aléatoire. Température basse (0,1) → le modèle choisit toujours le token le plus probable. Haute (2,0) → chaos uniforme. La zone idéale pour un texte cohérent mais créatif est située entre 0,7 et 1,0.

Point essentiel Le modèle ne « réfléchit » pas à ce qu'il va dire. Il calcule une distribution de probabilité sur tous les tokens suivants possibles et en échantillonne un. Chaque mot est un tirage au sort — certes très documenté, mais quand même aléatoire

Démo d'échantillonnage de tokens

Observez le modèle choisir le prochain mot. Chaque barre indique la probabilité d'un token possible.

Le ciel apparaît bleu

Température (aléatoire) 0.8

Tokens possibles suivants

Chapitre 2 · Le modèle de base

Le simulateur
d'Internet

Après le pré-entraînement, on obtient un modèle de base — un moteur d'autocomplétion sophistiqué. Ce n'est pas un assistant. Il ne répond pas aux questions. Il continue des séquences de tokens selon ce qu'il a modélisé dans la base de données issue internet.

Donnez-lui une phrase Wikipedia et il la complétera à partir de ses modélisations. Demandez-lui « Combien font 2+2 ? » et il pourrait vous donner une page de manuel de maths, une feuille de réponses, ou partir sur une tangente — selon ce qui était statistiquement fréquent dans ses données d'entraînement.

La connaissance du modèle de base réside dans ses milliards de paramètres (405 Mds dans notre exemple initial) — une compression avec perte de l'internet, comme un fichier ZIP qui fait des approximations plutôt qu'il ne stocke parfaitement l'information.

Comportements du modèle de base

Apprentissage en contexte

Bonjour : Hello | Chat : Cat | Chien : Dog | Professeur :

→ Teacher ✓ correct

Mémorisation

Les zèbres (/zɛbʁ/) sont des équidés africains au pelage distinctif...

...rayé noir et blanc. Il existe trois espèces vivantes : le zèbre de Grévy, le zèbre des plaines et le zèbre de montagne...

↑ Texte restitué mot pour mot depuis la mémoire du modèle

Hallucination

Le Parti républicain a désigné Trump et [colistier] lors de l'élection 2024 contre...

→ ...Mike Pence, face à Hillary Clinton et Tim Kaine...

→ ...Ron DeSantis, contre Joe Biden et Kamala Harris...

↑ Coupure de connaissance → fabulation plausible

Apprentissage en contexte Les modèles de base peuvent traduire, classer ou répondre à des questions sans entraînement spécifique — il suffit de donner quelques exemples dans le texte. Le modèle comprend la tâche à partir de ces exemples et continue dans le même esprit.

Chapitre 3 · Post-entraînement

Construire l'assistant

Le modèle de base est un simulateur de tokens. Pour en faire un assistant utile, il faut passer au post-entraînement — une étape bien moins coûteuse mais tout aussi cruciale. C'est là que le modèle apprend les conversations.

Affinage supervisé (SFT)

Des annotateurs humains créent un jeu de données de conversations idéales, en suivant des instructions détaillées : être utile, être honnête, être inoffensif. Le modèle est ensuite entraîné sur ces conversations — non pas de zéro, mais en continuant d'ajuster les poids pré-entraînés sur ces nouvelles données.

Les jeux de données pour le "Réglage Fin Supervisé" ou "Affinage supervisé" (en anglais, Supervised Fine-Tuning - SFT) modernes (comme UltraChat) comptent des millions de conversations — majoritairement synthétiques (générées par LLM), avec relecture humaine. Le modèle apprend par imitation : il adopte le comportement de l'assistant idéal reflété dans les données.

Exemple de conversation d'entraînement

Utilisateur

Combien font 2 + 2 ?

Assistant

2 + 2 = 4. Y a-t-il d'autres choses sur lesquelles je peux vous aider ?

Utilisateur

Et si c'était une multiplication à la place ?

Assistant

2 × 2 = 4 également — le même résultat ! En multiplication, 2 × 2 signifie additionner 2 à lui-même une fois, ce qui donne 4.

À qui vous parlez vraiment ChatGPT, Gemini, Le Chat, etc. sont des simulations statistiques des annotateurs humains recrutés par OpenAI, Google ou Mistral — des employés suivant des instructions d'annotation. Quand ils répondent à une question de code, ils imitent ce qu'un développeur-annotateur qualifié aurait écrit.

Format des tokens de conversation

Pour le modèle, une conversation n'est qu'une longue liste de mots découpés : des séparateurs indiquent où commence chaque message et qui l'a écrit.

Puis l'apprentissage par renforcement affine davantage le comportement de l'assistant :

RLHF — Apprentissage par renforcement
à partir des retours humains

Des évaluateurs humains classent plusieurs réponses du modèle. Un modèle de récompense apprend à prédire les préférences humaines. Le modèle de langage est ensuite entraîné par apprentissage par renforcement pour générer des réponses mieux notées par ce modèle de récompense.

✓ Préféré

Voici les 5 monuments incontournables de Paris : 1) La Tour Eiffel — emblématique structure en treillis de fer... 2) Le Louvre — plus grand musée d'art du monde...

✗ Rejeté

Paris possède de nombreux monuments. Vous devriez visiter la Tour Eiffel. Il y a aussi un musée appelé le Louvre. La cathédrale Notre-Dame est également là...

Pourquoi l'apprentissage par renforcement (RLHF) est important L'affinage supervisé (SFT) enseigne au modèle quoi dire. L'apprentissage par renforcement (RLHF) lui apprend comment bien l'écrire — rendant les réponses plus utiles, mieux structurées, plus honnêtes et moins sujettes aux hallucinations.

Chapitre 4 · "Psychologie" des LLM

Les comportements
des LLM expliqués

Comprendre pourquoi les LLM se comportent comme ils le font exige de penser à leur psychologie — des comportements qui apparaissent naturellement quand on entraîne un modèle à imiter des milliards de textes humains.

🌀

Hallucination

Les modèles fabulent avec assurance parce que les données d'entraînement contiennent toujours des réponses confiantes. « Qui est Orson Kovats ? » génère une biographie inventée, car dans tous les textes vus à l'entraînement, les questions « qui est X ? » sont toujours suivies de réponses confiantes — même pour des noms fictifs. Remède : ajouter des exemples « je ne sais pas » pour les questions que le modèle rate systématiquement.

🧠

Deux types de mémoire

Paramètres = mémoire à long terme. Tout ce que le modèle a appris à l'entraînement — vaste mais vague, comme quelque chose lu il y a des mois. Fenêtre de contexte = mémoire de travail. Le texte de la conversation en cours — précis et directement accessible. La fenêtre de contexte, c'est tout ce que le modèle peut lire en une seule fois — comme un bureau de travail de taille limitée. Tout ce qui dépasse cette limite est invisible pour lui. Collez toujours les informations importantes dans le contexte plutôt que d'espérer que le modèle « s'en souvienne ».

🔧

Utilisation d'outils

Les modèles peuvent émettre des tokens spéciaux qui déclenchent des outils externes : <search>requête</search>. Le programme suspend la génération, exécute la recherche, injecte les résultats dans le contexte, puis reprend. Le modèle « cherche des informations » comme vous le feriez — en rafraîchissant sa mémoire de travail.

🪞

Pas de persistance

Chaque conversation repart de zéro — aucun souvenir des échanges précédents sauf si la couche de mémorisation a été activée dans l'application utilisée. Le modèle « s'allume », traite des tokens, puis s'éteint. Il n'a pas d'identité stable. Quand il dit « Je suis ChatGPT, créé par OpenAI », c'est simplement la réponse statistiquement la plus probable dans ses données d'entraînement — pas une véritable connaissance de ce que l'application est réellement

📊

Un lanceur de dés très instruit

Le modèle ne « décide » pas de ce qu'il va dire. Il calcule des distributions de probabilité et en échantillonne. Soumettez le même prompt 10 fois et obtenez 10 sorties différentes — toutes plausibles, toutes tirées de la même distribution apprise. La température contrôle l'amplitude de cet échantillonnage.

📚

Coupure de connaissance

Les données d'entraînement ont une date. Sans activer la couche de recherche internet, le modèle ignore ce qu'il s'est passé après. Posez-lui des questions sur des événements récents et il hallucine — non par malice, mais par le même mécanisme qui répond à toutes les questions : prédire la continuation la plus probable de la séquence de tokens.

🪤

Sycophanie

Le RLHF entraîne aussi un effet pervers : le modèle apprend que les humains notent mieux les réponses flatteuses. Il peut donc valider vos idées fausses plutôt que de vous contredire — non par malice, mais parce que l'approbation était mieux notée pendant l'entraînement.

LLM augmenté · RAG

RAG - Génération augmentée
par récupération

Les LLM ont une date limite de connaissance et ne peuvent pas tout retenir. Le RAG résout ce problème : avant de répondre, on lui soumet les documents pertinents — il répond alors à partir de ces faits précis plutôt que de sa mémoire approximative.

Un modèle d'embedding traduit n'importe quel texte en une liste de nombres. Des textes au sens proche produisent des listes de nombres proches — c'est ce qui permet de chercher par sens plutôt que par mots-clés exacts.

Étape 01 — Encoder tout

Chaque document est converti en vecteur dense (~1 536 nombres) par un modèle d'intégration ("embedding"). Les textes sémantiquement proches se retrouvent voisins dans cet espace de haute dimension — sans correspondance par mots-clés.

Étape 02 — Encoder la requête et chercher

La question de l'utilisateur est encodée de la même façon. Un calcul mathématique mesure la proximité de sens entre la question et chaque document — et retient les 2 à 5 plus proches.

Étape 03 — Injecter et générer

Les passages récupérés sont ajoutés en tête de l'instruction avant que le LLM ne la traite. Le modèle génère à partir des faits injectés plutôt qu'en s'appuyant sur les données d'entraînement mémorisées — réduisant drastiquement les hallucinations sur les tâches s'appuyant sur des connaissances.

1 · Requête utilisateur

« Quelle est la capitale de la Base Arès ? »

2 · Modèle d'embedding

Texte → [0.23, −0.87, 0.41, ...] ~1 536 vecteurs flottants

3 · Base vectorielle — Recherche cosinus

Trouver les documents dont le sens est le plus proche de la question

4 · Passages récupérés (top 2)

Doc 1 : « Base Arès établie en 2031... »
Doc 2 : « Capitale : New Houston, 312 colons... »

5 · Fenêtre de contexte (assemblée)

[Récupéré] Base Arès est. 2031...
[Récupéré] Capitale : New Houston...
[Requête] Quelle est la capitale... ?

6 · LLM → Réponse ancrée

« La capitale de la Base Arès est New Houston. »

Effet sur les prédictions

Requête « Quelle est la capitale administrative de la colonie de la Base Arès ? »

Base de connaissances

DOC 1

La colonie martienne Base Arès a été établie en 2031 près d'Hellas Planitia.

DOC 2

La capitale administrative de la Base Arès est New Houston, qui abrite 312 colons.

DOC 3

La température de surface de Mars est en moyenne −63 °C avec des variations saisonnières près des pôles.

DOC 4

La première mission habitée vers Mars a décollé du Centre spatial Kennedy en 2029.

Fenêtre de contexte — envoyée au LLM

📄 [Récupéré] La colonie martienne Base Arès a été établie en 2031 près d'Hellas Planitia.

📄 [Récupéré] La capitale administrative de la Base Arès est New Houston, qui abrite 312 colons.

❓ [Requête] Quelle est la capitale administrative de la colonie de la Base Arès ?

✕ Sans RAG

« Je ne dispose pas d'informations fiables sur une colonie nommée Base Arès. À la date de ma coupure de connaissance, aucune colonie martienne n'avait été établie... »

Hallucination / Refus

✓ Avec RAG

« La capitale administrative de la Base Arès est New Houston, qui abrite 312 colons. La colonie a été établie en 2031 près d'Hellas Planitia. »

Ancré dans le contexte récupéré

Toutes les étapes

Du texte brut
à l'assistant

Le parcours complet depuis le texte brut d'internet jusqu'au chatbot avec lequel vous interagissez — sept étapes, des mois de calcul, et des milliards de paramètres.

01

Collecte des données

Common Crawl + autres sources → filtrage URL → extraction du texte → filtrage linguistique → déduplication → suppression des données personnelles → 44 To de texte choisi et organisé (FineWeb, etc.)

Common CrawlFineWeb44 To15 000 Mds de tokens

02

Tokenisation

Texte → octets UTF-8 → Byte Pair Encoding → séquence de 15 000 milliards de tokens. Chaque token est un sous-mot avec un identifiant entier. Vocabulaire GPT-4 : 100 277 tokens.

BPE100 000 tokens de vocabulaireSous-mots

03

Pré-entraînement

Réseau de neurones Transformer entraîné à prédire le prochain token. Des milliards de paramètres ajustés par descente de gradient. Des mois de calcul sur des milliers de GPU. La perte passe de ~11 à ~2,4.

Transformer405B paramètresMillions de $ de calcul3 mois

04

Modèle de base

Un simulateur de documents internet. Peut autocompléter, faire de l'apprentissage en contexte et régurgiter des faits mémorisés. PAS un assistant — juste un prédicteur de tokens très sophistiqué.

GPT-2Llama 3 baseAutocomplétion

05

Affinage supervisé (SFT)

Le modèle de base est ré-entraîné sur des conversations annotées par des humains. Les annotateurs rédigent des réponses idéales selon les consignes de l'entreprise : utile, honnête, inoffensif. Jeux de données modernes : des millions de conversations synthétiques + traitées humainement. Durée : quelques jours (contre plusieurs mois pour le pré-entraînement).

Annotateurs humainsInstructGPTUltraChat~quelques heures

06

RLHF

Des évaluateurs humains classent les sorties du modèle. Un modèle de récompense apprend ces préférences. Le modèle de langage est optimisé par apprentissage par renforcement pour obtenir de meilleures notes — produisant des réponses plus utiles, mieux structurées et plus ancrées

Modèle de récompensePPOPréférences humaines

07

🤖 ChatGPT / Claude / Gemini / Le Chat ...

L'assistant final. Une simulation statistique d'annotateurs humains, appuyée par une vaste représentation compressée d'internet. Pas de magie — mais une ingénierie remarquable à une échelle colossale.

ConversationnelUtile · Honnête · InoffensifUtilisation d'outils

Comment les LLMfonctionnent réellement

Téléchargerl'internet

Tokenisation

L'algorithme Byte Pair Encoding (BPE) en action

Entraîner leréseau de neurones

Architecture Transformer

Sortie du modèle à cette étape

Inférence &échantillonnage

Démo d'échantillonnage de tokens

Le simulateurd'Internet

Comportements du modèle de base

Construire l'assistant

Affinage supervisé (SFT)

Format des tokens de conversation

RLHF — Apprentissage par renforcementà partir des retours humains

Les comportementsdes LLM expliqués

RAG - Génération augmentéepar récupération

Effet sur les prédictions

Base de connaissances

Du texte brutà l'assistant

Comment les LLM
fonctionnent réellement

Télécharger
l'internet

Entraîner le
réseau de neurones

Inférence &
échantillonnage

Le simulateur
d'Internet

RLHF — Apprentissage par renforcement
à partir des retours humains

Les comportements
des LLM expliqués

RAG - Génération augmentée
par récupération

Du texte brut
à l'assistant