Comment les LLM
fonctionnent réellement
Un parcours complet sur la construction des grands modèles de langage — du texte brut d'internet à un assistant conversationnel. Basé sur l'analyse technique d'Andrej Karpathy .
Traduction
Traduction et adaptation en français de la création originale de ynarwal , avec l'accord de son auteur, par Bertrand Formet pour uneIAparjour.fr , produite avec l'aide de Claude (Anthropic).
Construit à partir de la conférence d'Andrej Karpathy « Intro to Large Language Models » — les faits, chiffres et cadres conceptuels en sont issus. Visualisations interactives construites avec l'aide de l'IA.
Le point essentiel à retenir : chaque mot généré est un échantillon probabiliste — un tirage au sort biaisé, à l'échelle de 100 000 possibilités, répété des milliards de fois.
Transcription complète de la conférence
- Tokens d'entraînement
- 15T
- Paramètres
- 405B
- Données textuelles
- 44 To
- Vocabulaire de tokens
- 100K
Chiffres représentatifs des modèles de pointe vers 2024 — les valeurs exactes évoluent à chaque nouvelle version. L'ordre de grandeur est le plus important, pas la précision.