
Les LLM restent opaques pour beaucoup de devs. On sait qu’il y a des “transformers” et de l’“attention”, mais concrètement ? Flou artistique.
J’ai créé ce guide visuel avec un fil rouge simple : la phrase “Le chat mange” traverse chaque étape du modèle. Tokenization, embeddings, attention, feed-forward, jusqu’à la génération du mot suivant.
Pas de formules mathématiques complexes. Des schémas, des exemples concrets, et une progression logique du texte brut jusqu’à la prédiction finale.
Le guide couvre aussi les optimisations : KV cache pour accélérer l’inférence, quantization pour réduire la mémoire, MoE pour scaler, et function calling pour connecter le modèle à des outils externes.