Pourquoi 16 kHz et pas 44.1 kHz ?
La voix humaine intelligible est concentrée entre 300 Hz et 3400 Hz (bande téléphonique). 16 kHz capture jusqu'à 8 kHz, largement suffisant. Plus de samples = plus de calcul pour rien.
Preprocessing courant :
• Resampling (ffmpeg, librosa) si source ≠ 16 kHz
• Normalisation amplitude (peak ou RMS)
• Conversion stereo → mono
• Suppression du silence (VAD)