🎤 Comment fonctionne un STT

📖 Vue d'ensemble — Speech-to-Text

Transforme une onde sonore en texte, mot par mot.

🎯 Fil rouge : "Bonjour, comment ça va ?"

Un extrait audio de 3 secondes qui traverse tout le pipeline.

Durée

3 secondes

Sample Rate

16 kHz

Échantillons

48 000

Modèle

Whisper large-v3

💡 L'essentiel

Un STT moderne (Whisper, Canary) utilise une architecture encoder-decoder : l'encoder compresse l'audio en représentations, le decoder génère le texte token par token. Tout repose sur des Transformers, comme les LLM.

📚 Les 12 sections

Section	Ce que tu vas apprendre
🎵 Audio	Onde sonore, échantillonnage, sample rate
📊 Mel Spectrogram	FFT, fréquences, perception humaine
🔢 Features	Log-mel, normalisation, format d'entrée
🏗️ Encoder	Architecture Transformer, convolutions
🔮 Decoder	Génération auto-régressive, cross-attention
⏱️ Timestamps	Word-level, segment-level, alignement
🌍 Langues	Détection automatique, multilingual
📏 Chunking	30 secondes, overlap, VAD
⚡ Métriques	WER, RTFx, latence
🔧 Optimisations	CTranslate2, int8, batching
🆚 Modèles	Whisper vs Canary vs Parakeet

🎵 Audio Input — L'onde sonore

Tout commence par une vibration de l'air, capturée par un microphone.

📍 Fil rouge — Étape 1/12

"Bonjour, comment ça va ?" → 48 000 échantillons (3s × 16 000 Hz)

💡 L'essentiel

L'audio est une suite de nombres représentant l'amplitude du son à chaque instant. Whisper attend du mono 16 kHz. Un audio de 3 secondes = 48 000 valeurs flottantes entre -1 et +1.

Sample Rate

Nombre d'échantillons par seconde. 16 kHz = standard STT (suffisant pour la voix humaine).

Bit Depth

Précision de chaque échantillon. 16-bit = 65 536 niveaux possibles.

Nyquist

Sample rate = 2× la fréquence max. 16 kHz capture jusqu'à 8 kHz (voix = 300-3400 Hz).

Mono vs Stereo

STT = mono. Stereo est downmixé (moyenne des canaux).

Aller plus loin

Pourquoi 16 kHz et pas 44.1 kHz ?

La voix humaine intelligible est concentrée entre 300 Hz et 3400 Hz (bande téléphonique). 16 kHz capture jusqu'à 8 kHz, largement suffisant. Plus de samples = plus de calcul pour rien.

Preprocessing courant :

• Resampling (ffmpeg, librosa) si source ≠ 16 kHz
• Normalisation amplitude (peak ou RMS)
• Conversion stereo → mono
• Suppression du silence (VAD)

📊 Mel Spectrogram — L'image du son

Transformer l'onde temporelle en représentation temps-fréquence, adaptée à l'oreille humaine.

📍 Fil rouge — Étape 2/12

48 000 échantillons → Matrice 80 × 300 (80 bandes mel × 300 frames)

💡 L'essentiel

Le Mel Spectrogram transforme l'audio en "image" temps-fréquence. L'axe X = temps (frames de 10ms), l'axe Y = fréquences (80 bandes mel). Chaque pixel = énergie dans cette bande à cet instant. C'est ce que "voit" l'encoder.

STFT

Short-Time Fourier Transform. FFT sur fenêtres glissantes (25ms, hop 10ms).

Frame

Une "colonne" du spectrogramme = 10ms d'audio analysé.

Mel bin

Une bande de fréquences. 80 bins = 80 "hauteurs" de son distinctes.

Hop length

Décalage entre fenêtres. 10ms = 100 frames/seconde.

Aller plus loin

Pourquoi pas spectrogramme linéaire ?

Un spectrogramme linéaire aurait autant de bins pour 0-1000 Hz que pour 7000-8000 Hz. Or l'information vocale est concentrée dans les basses fréquences. L'échelle mel compresse les hautes fréquences = représentation plus efficace.

Paramètres Whisper :

• n_fft : 400 (fenêtre de 25ms à 16kHz)
• hop_length : 160 (10ms)
• n_mels : 80 (ou 128 pour large-v3)
• fmin : 0 Hz, fmax : 8000 Hz

🔢 Feature Extraction — Préparer l'entrée

Normaliser et formater le spectrogramme pour le réseau de neurones.

📍 Fil rouge — Étape 3/12

Mel (80, 300) → Log-mel normalisé → Tensor (1, 80, 300)

💡 L'essentiel

Le log compresse la dynamique audio (perception humaine = logarithmique). La normalisation centre les valeurs autour de 0 avec écart-type ~1, ce qui aide la convergence du réseau. Le tensor final est paddé à 30 secondes (3000 frames).

Log-mel

Spectrogramme mel passé au log. Standard en speech recognition.

Padding

Ajout de zéros pour atteindre 30s. L'attention mask ignore ces frames.

Batch dimension

Permet de traiter plusieurs audios en parallèle sur GPU.

dB (décibels)

Souvent on utilise 10×log10 pour avoir des dB. Même idée que log.

Aller plus loin

Code simplifié (faster-whisper) :


mel = librosa.feature.melspectrogram(y=audio, sr=16000, n_mels=80)

log_mel = np.log10(np.maximum(mel, 1e-10))

normalized = (log_mel - MEAN) / STD  # stats globales Whisper

tensor = torch.tensor(normalized).unsqueeze(0)  # (1, 80, T)

Alternative : MFCC

Les MFCC (Mel-Frequency Cepstral Coefficients) appliquent une DCT en plus. Utilisés historiquement, mais les réseaux modernes préfèrent les log-mel bruts.

🏗️ Encoder — Comprendre l'audio

Transformer le spectrogramme en représentations sémantiques exploitables par le decoder.

📍 Fil rouge — Étape 4/12

Tensor (1, 80, 300) → Encoder embeddings (1, 75, 1280) pour large-v3

💡 L'essentiel

L'encoder Whisper est un Transformer qui traite le spectrogramme. Les convolutions initiales réduisent la résolution temporelle (3000→750 frames). Les 32 couches de self-attention permettent à chaque frame de "voir" tout l'audio. Output : une représentation dense par frame de 40ms.

Conv stem

Couches convolutionnelles initiales. Réduisent la séquence et projettent vers d_model.

Self-attention

Chaque position attend à toutes les autres. Capture les dépendances longues.

d_model

Dimension des embeddings internes. 1280 pour large = vecteurs de 1280 nombres.

Downsample

Réduction temporelle. 4× = 1 frame encoder représente 40ms d'audio.

Aller plus loin

Pourquoi des convolutions avant le Transformer ?

Le spectrogramme a 3000 frames pour 30s. L'attention a une complexité O(n²). Avec 3000 positions, ça fait 9 millions d'opérations par couche. Les convolutions réduisent à 750, soit 562 500 opérations. Gain de 16×.

Différence avec un encoder LLM :

• LLM encoder (BERT) : tokens discrets en entrée
• STT encoder : signal continu (spectrogramme)
• Les deux utilisent self-attention, mais le preprocessing diffère

🔮 Decoder — Générer le texte

Transformer les représentations audio en tokens texte, un par un.

📍 Fil rouge — Étape 5/12

Encoder output (1, 75, 1280) → Decoder → "Bonjour, comment ça va ?"

💡 L'essentiel

Le decoder génère le texte token par token (auto-régressif). À chaque étape : (1) self-attention sur les tokens déjà générés, (2) cross-attention vers l'encoder pour "regarder" l'audio, (3) prédiction du prochain token. Le KV cache évite de recalculer les tokens passés.

Auto-régressif

Chaque token dépend des précédents. Génération séquentielle, pas parallèle.

Cross-attention

Le decoder "interroge" l'encoder : Q vient du decoder, K/V de l'encoder.

Causal mask

Empêche de voir les tokens futurs. Position N ne voit que 1...N-1.

Special tokens

<|startoftranscript|>, <|fr|>, <|transcribe|>, <|endoftext|>

Aller plus loin

Pourquoi encoder-decoder et pas encoder-only ?

L'audio et le texte ont des longueurs différentes (750 frames → ~20 tokens). Le decoder permet une correspondance flexible. Un CTC (encoder-only) force un alignement monotone.

Beam search vs Greedy :

• Greedy : prend le token le plus probable à chaque étape
• Beam search : garde les N meilleures hypothèses, meilleure qualité mais plus lent
• faster-whisper utilise beam_size=5 par défaut

Température :

Whisper utilise temperature=0 par défaut (greedy). Si échec (trop de répétitions), fallback à temperature=[0.2, 0.4, 0.6, 0.8, 1.0]

⏱️ Timestamps — Positionner les mots

Associer chaque mot ou segment à son instant dans l'audio.

📍 Fil rouge — Étape 6/12

"Bonjour" → [0.00s - 0.52s] | "comment" → [0.60s - 1.10s] | ...

💡 L'essentiel

Whisper génère des timestamps de 2 façons : (1) segment-level via des tokens spéciaux <|0.00|> intégrés au vocabulaire, (2) word-level via l'alignement des poids de cross-attention entre decoder et encoder. Le word-level est plus lent mais indispensable pour le sous-titrage précis.

Cross-attention weights

Indiquent où le decoder "regarde" dans l'audio pour chaque token généré.

DTW

Dynamic Time Warping. Aligne séquences de longueurs différentes.

Résolution 20ms

Whisper a 1500 timestamps possibles pour 30s (tokens <|0.00|> à <|30.00|>).

WhisperX

Outil qui améliore les word timestamps avec forced alignment (wav2vec2).

Aller plus loin

Comment faster-whisper calcule les word timestamps ?

1. Extrait les poids de cross-attention (decoder → encoder)
2. Pour chaque token texte, identifie les frames audio avec le plus de poids
3. Applique DTW pour lisser l'alignement
4. Convertit frame index → secondes

Problèmes courants :

• Mots très courts (articles) : timestamps imprécis
• Musique/bruit : alignement dérive
• Répétitions : Whisper peut "sauter" ou répéter des segments

🌍 Langues — Détection et multilingual

Comment Whisper identifie et transcrit 99+ langues.

📍 Fil rouge — Étape 7/12

Audio français → Détection auto : <|fr|> → Transcription en français

💡 L essentiel

Whisper détecte la langue en analysant les 30 premières secondes via l encoder, puis génère le token de langue approprié. Le modèle peut transcrire (même langue) ou traduire (vers anglais). La détection fonctionne bien pour les langues avec beaucoup de données d entraînement.

Multilingual

Les modèles .en sont anglais-only. Les autres supportent 99 langues.

Code-switching

Changement de langue mid-phrase. Whisper gère mal, détecte une langue dominante.

Translate

Mode speech-to-English. Transcrit ET traduit vers anglais en un pass.

language=None

Détection automatique. Spécifier la langue évite les erreurs de détection.

Aller plus loin

Qualité par langue (WER approximatif) :

• Anglais : ~3-5% (excellent)
• Français, Allemand, Espagnol : ~5-8% (très bon)
• Langues asiatiques : ~10-15% (correct)
• Langues rares : ~20%+ (variable)

Forcer la langue :

Si tu sais que l audio est en français, utilise language="fr" pour éviter les erreurs de détection et accélérer légèrement le traitement.

📏 Chunking — Découper l audio

Pourquoi et comment diviser les longs audios en segments de 30 secondes.

📍 Fil rouge — Étape 8/12

Notre audio de 3s tient dans un seul chunk. Un appel de 5 minutes → 10 chunks de 30s

💡 L essentiel

Whisper a ete entraine sur des segments de 30 secondes max. Au-dela, le positional encoding ne generalise pas et le modele hallucine ou repete. Pour les longs audios : decouper en chunks, traiter, concatener. Le chevauchement (overlap) evite de couper les mots.

Chunk

Segment de 30s. Spectrogramme de (80, 3000) frames.

VAD

Voice Activity Detection. Detecte les silences pour couper intelligemment.

Overlap

Chevauchement entre chunks pour eviter de couper mid-word.

Seek

Position actuelle dans l audio. Avance apres chaque segment transcrit.

Aller plus loin

Strategie faster-whisper :

1. Transcrit 30s, detecte le dernier timestamp valide
2. Avance (seek) jusqu a ce timestamp
3. Recommence avec un nouveau chunk
4. VAD optionnel pour skipper les silences

Probleme des repetitions :

Si Whisper genere "merci merci merci merci...", c est souvent un chunk mal decoupe ou du silence. Solutions : VAD, condition_on_previous_text=False, compression_ratio_threshold.

⚡ Metriques — Mesurer la performance

WER pour la qualite, RTFx pour la vitesse.

📍 Fil rouge — Étape 9/12

"Bonjour, comment ca va ?" transcrit en 5ms → RTFx = 600 (3s / 0.005s)

💡 L essentiel

WER mesure la qualite (% d erreurs par rapport a une reference humaine). RTFx mesure la vitesse (combien de fois plus rapide que le temps reel). Sur H100 avec 60 conversations de 5 min traitees en batch, tu atteins RTFx ~600 = excellent.

CER

Character Error Rate. Comme WER mais au niveau caractere. Utile pour langues sans espaces.

Latence

Temps entre fin de parole et debut de transcription. Critique en streaming.

Throughput

Heures d audio traitees par heure. RTFx × utilisation GPU.

Time to First Token

Temps avant le premier mot. Encoder (prefill) domine.

Aller plus loin

WER vs WER normalise :

Le WER brut est sensible a la ponctuation et la casse. Le WER normalise (lowercase, sans ponctuation) est plus juste pour comparer des systemes.

Calculer le RTFx :

Si tu traites 300 minutes d audio en 30 secondes :
RTFx = (300 × 60) / 30 = 600
= 600 secondes d audio par seconde de calcul

🔧 Optimisations — Aller plus vite

CTranslate2, quantization, batching et autres techniques.

📍 Fil rouge — Étape 10/12

Whisper OpenAI → faster-whisper (CTranslate2) → int8 → batch de 60 → RTFx 600

💡 L essentiel

faster-whisper (CTranslate2) est ~4x plus rapide que Whisper HF. int8 ajoute ~30-50% sans perte notable. Batching sature le GPU pour maximiser le throughput. Combine les trois = RTFx 600 sur H100.

CTranslate2

Moteur d inference C++ optimise pour les Transformers. Backend de faster-whisper.

compute_type

Precision des calculs. int8_float16 = bon compromis speed/quality.

Silero VAD

Modele leger de Voice Activity Detection. Detecte parole vs silence.

TensorRT

SDK NVIDIA pour optimiser les modeles. Compile des kernels specifiques au GPU.

Aller plus loin

Config optimale faster-whisper sur H100 :

model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")
batched = BatchedInferencePipeline(model, batch_size=32)

Pourquoi pas vLLM pour Whisper ?

vLLM supporte Whisper depuis peu mais moins mature que faster-whisper. Avantage : continuous batching natif. A tester si tu scales davantage.

🆚 Modeles — Whisper vs Alternatives

Comparatif des principaux modeles STT en 2024-2025.

📍 Fil rouge — Étape 11/12

Ton choix : Whisper large-v3 via faster-whisper (FR requis, word timestamps, ponctuation)

💡 L essentiel

Pour le francais + word timestamps + ponctuation, Whisper large-v3 reste la reference. Turbo est 2x plus rapide avec qualite quasi identique. Canary (NVIDIA) excelle en streaming. Parakeet ecrase tout en anglais only.

NeMo

Framework NVIDIA pour speech AI. Canary et Parakeet en font partie.

Distillation

Entrainer un petit modele a imiter un gros. distil-whisper = eleve de large-v3.

TDT

Token-and-Duration Transducer. Architecture NVIDIA pour timestamps precis.

CTC

Connectionist Temporal Classification. Alternative au decoder, plus simple mais moins flexible.

Aller plus loin

Migration vers Canary :

Si tu veux passer de Whisper a Canary :
• Installer NeMo toolkit
• Convertir pipeline audio (meme format 16kHz mono)
• API differente mais concepts similaires

Whisper-large-v3-turbo-ct2 :

Version CTranslate2 du turbo, directement utilisable avec faster-whisper :
model = WhisperModel("deepdml/faster-whisper-large-v3-turbo-ct2")