Who am I

Le couteau suisse à l'heure de l'IA

Comment fonctionne un STT : de l'onde sonore au texte

EN REVIEW

Suivez 'Bonjour, comment ça va ?' à travers chaque étape du pipeline : audio, spectrogramme mel, encoder, decoder, jusqu'à la transcription.

19 February 2026
whispersttmachine-learninggpuspeech-to-text

Pipeline STT : de l’onde sonore au texte

Les STT modernes restent opaques pour beaucoup de devs. On sait qu’il y a des “transformers” et du “spectrogramme mel”, mais concrètement ? Flou artistique.

J’ai voulu comprendre ce qui se passe vraiment entre le moment où quelqu’un parle et le moment où le texte apparaît. Pas les formules mathématiques - juste le mécanisme, étape par étape.

J’ai créé ce guide visuel avec un fil rouge simple : la phrase “Bonjour, comment ça va ?” traverse chaque couche du pipeline. De l’onde sonore brute jusqu’à la transcription finale avec timestamps.

Ce que le guide couvre

Le parcours complet d’un signal audio à travers Whisper :

  • Audio Input : onde sonore, échantillonnage, sample rate 16 kHz
  • Mel Spectrogram : FFT, filtres mel, perception humaine des fréquences
  • Feature Extraction : log-mel, normalisation, format d’entrée du modèle
  • Encoder : convolutions, Transformer 32 couches, self-attention
  • Decoder : génération auto-régressive, cross-attention, KV cache
  • Timestamps : segment-level et word-level, alignement DTW

Chaque étape est illustrée avec des schémas et des exemples concrets.

Les optimisations expliquées

Le guide couvre aussi les techniques pour passer en production :

  • CTranslate2 : le backend C++ de faster-whisper, ~4x plus rapide
  • Quantization : int8 pour +30-50% de vitesse avec ~0.5% de WER en plus
  • Batching : saturer le GPU avec plusieurs audios en parallèle
  • VAD : Voice Activity Detection pour skipper les silences et éviter les hallucinations

Comparatif des modèles

Le guide inclut un comparatif détaillé entre Whisper large-v3, le turbo, Canary (NVIDIA), Parakeet et distil-whisper. Avec les métriques WER et RTFx pour chaque configuration.

Pourquoi ce format

J’apprends mieux avec des visuels qu’avec des équations. Ce guide est celui que j’aurais voulu trouver quand j’ai commencé à bosser sur la transcription automatique.

Pas de prérequis en machine learning. Si vous savez ce qu’est un vecteur et une matrice, vous pouvez suivre.

Accéder au guide interactif →