Comment fonctionne la traduction vocale en temps réel — du micro à 225 langues
La traduction vocale en temps réel convertit la voix d'un locuteur en audio traduit dans 225 langues grâce à un pipeline de reconnaissance vocale, traduction automatique et synthèse vocale. Voici comment chaque étape fonctionne.
La traduction vocale en temps réel ressemble à de la magie : une personne parle et, quelques instants plus tard, des centaines d’auditeurs entendent les mêmes mots dans leur propre langue. Derrière cette expérience se trouve un pipeline logiciel exécutant trois modèles d’IA en séquence, accomplissant le trajet de la parole à l’audio traduit en moins d’une seconde.
Cet article parcourt chaque étape de ce pipeline — reconnaissance vocale, traduction automatique et synthèse vocale — et explique comment elles se combinent pour fournir 225 langues à un public en direct.
Étape 1 : De la parole au texte — capter ce que dit le locuteur
Comment fonctionne le STT en flux continu
Le pipeline démarre dès que le locuteur ouvre la bouche. Le navigateur capture l’audio du microphone et l’envoie via WebRTC — le même protocole utilisé pour les appels vidéo — vers un LiveKit SFU (Selective Forwarding Unit). Le SFU achemine la piste audio vers l’agent de traduction exécuté sur le serveur.
L’agent n’attend pas une phrase complète. Il diffuse plutôt l’audio en petits fragments vers Deepgram Nova-3, un modèle neuronal de reconnaissance vocale. Deepgram renvoie des transcriptions partielles qui s’affinent au fur et à mesure que l’audio arrive. Une phrase comme « bonjour à tous et bienvenue à la conférence » pourrait arriver sous forme de trois résultats partiels : « bonjour », puis « bonjour à tous et », puis la phrase complète. Chaque raffinement met à jour la traduction en aval en temps quasi réel.
Cette approche en flux continu est ce qui maintient la latence à un niveau faible. Le système ne met pas en mémoire tampon une utterance entière avant d’agir — il commence le traitement en quelques dizaines de millisecondes après la réception de l’audio. Au moment où le locuteur termine une phrase, le pipeline de traduction est déjà bien avancé.
Détection de la langue du locuteur
Deepgram Nova-3 prend en charge 49 codes de langue du locuteur — des variantes langue-région telles que l’anglais américain (en-US), le portugais brésilien (pt-BR) et le chinois simplifié (zh-CN). Le locuteur sélectionne sa langue au lancement de la session. C’est important car une reconnaissance vocale précise nécessite de connaître la langue d’entrée. Des modèles de « détection automatique » existent, mais ils ajoutent de la latence et réduisent la précision pour les paires de langues rares — un compromis inacceptable en situation de direct.
Pour des conseils pratiques sur l’obtention d’un audio optimal dans le pipeline — choix du microphone, placement et acoustique de la pièce — consultez notre guide sur le choix du bon microphone.
Étape 2 : Traduction automatique — convertir le sens d’une langue à l’autre
Le moteur de traduction
Une fois que l’étape de parole au texte produit une transcription, le texte passe à la traduction automatique. Le moteur dépend du plan du locuteur :
- Offre gratuite : Google Cloud NMT (Neural Machine Translation) — rapide et fiable pour les principales paires de langues. NMT est un modèle éprouvé en production, entraîné sur des milliards de phrases parallèles, qui gère les traductions directes avec une faible latence.
- Offres payantes (Starter, Pro, Max) : DualModelTranslator — utilise Google Cloud Translation LLM pour environ 100 langues où les grands modèles de langage produisent des résultats plus naturels et contextuels, avec un recours à NMT pour les paires restantes. L’avantage du LLM est réel : il gère mieux les idiotismes, les changements de registre, la terminologie spécialisée et le contexte à long terme que les approches statistiques. Pour les paires plus simples — de l’espagnol vers le portugais, par exemple — NMT est plus rapide et tout aussi précis, le système route donc en conséquence.
Prise en charge de 225 langues cibles
Le système prend en charge 225 langues cibles, réparties en deux niveaux :
- 51 langues reçoivent l’audio complet. Le texte traduit est synthétisé en parole via Google Cloud TTS et délivré sous forme de flux audio en direct.
- 174 langues supplémentaires reçoivent des sous-titres textuels en direct. La traduction est réelle et traduite — non transcrite — mais délivrée sous forme de texte défilant au lieu d’audio.
Les langues sont activées à la demande. Lorsqu’un auditeur rejoint une session et choisit sa langue, le pipeline crée un flux de traduction pour cette paire source-cible spécifique. Si personne ne sélectionne le finnois, aucune traduction en finnois n’est générée — et aucune heure-langue n’est consommée. Consultez la liste complète des langues prises en charge pour la couverture audio et sous-titres.
Latence à l’étape de traduction
La traduction automatique est l’étape la plus rapide du pipeline :
- NMT : typiquement 50–150 ms par fragment de phrase
- LLM : typiquement 100–300 ms par fragment — qualité supérieure pour le texte complexe, marginalement plus lent
Comme l’architecture en flux continu alimente les transcriptions partielles dans la traduction au fur et à mesure de leur arrivée, le système n’attend pas une phrase complète avant de traduire. Les résultats partiels sont raffinés au fur et à mesure que davantage de contexte devient disponible, ce qui signifie que l’auditeur reçoit un flux continu de contenu traduit plutôt qu’une série de bouffées discrètes.
Étape 3 : De texte à parole — donner une voix à la traduction
Comment fonctionne la synthèse TTS
Pour les 51 langues audio, le texte traduit passe à Google Cloud TTS. Le modèle génère une forme d’onde audio au son naturel dans la langue cible. Chaque langue possède son propre modèle vocal ajusté à la phonologie de cette langue — le rythme, l’intonation et les schémas consonne-voyelle qui rendent la parole naturelle plutôt que robotique.
L’audio synthétisé est publié comme une nouvelle piste audio sur le LiveKit SFU. Chaque langue dispose de sa propre piste, indépendante des autres.
Diffusion de l’audio aux auditeurs
Le mécanisme de diffusion est WebRTC — le même protocole utilisé pour les appels vidéo, optimisé pour les médias en temps réel à faible latence. Chaque auditeur s’abonne à la piste audio correspondant à sa langue choisie. Pas de mixage, pas de commutation — l’auditeur entend un flux continu dans sa langue du début à la fin.
Les auditeurs peuvent se joindre depuis un téléphone, une tablette ou un ordinateur portable. Pour découvrir l’expérience complète du public — comment un auditeur scanne un QR code, choisit une langue et se connecte — consultez comment fonctionne la traduction par QR code.
Le pipeline complet en chiffres
| Étape du pipeline | Technologie | Latence | Coût par heure-langue |
|---|---|---|---|
| Parole vers texte | Deepgram Nova-3 (flux continu) | 200–400 ms | ~$0.46 |
| Traduction | Google Cloud NMT / Translation LLM | 50–300 ms | ~$0.02–0.08 |
| Texte vers parole | Google Cloud TTS | 100–200 ms | ~$0.79 |
| Diffusion audio | WebRTC via LiveKit SFU | <100 ms | $0 (auto-hébergé) |
| Bout en bout | 350 ms–1 s | ~$1.27–$1.33 |
Où s’accumule la latence
La latence bout en bout provient de trois sources :
- Entrée réseau — le temps nécessaire pour que l’audio voyage du navigateur du locuteur, via le LiveKit SFU, jusqu’à l’agent de traduction. Cela dépend de la connexion internet du locuteur mais se situe généralement en dessous de 100 ms sur une connexion stable.
- Traitement — STT + traduction + TTS. C’est la majeure partie du délai : environ 350–900 ms selon la paire de langues et selon que le système utilise la traduction NMT ou LLM.
- Sortie réseau — le temps nécessaire pour que la piste audio traduite voyage du SFU jusqu’à l’appareil de chaque auditeur. Là encore, généralement en dessous de 100 ms.
La latence totale bout en bout pour les langues audio se situe typiquement entre 0,5 et 1,0 seconde. Les langues avec sous-titres textuels sautent entièrement l’étape TTS, elles arrivent donc plus rapidement — mais sans audio synthétisé. Pour une comparaison approfondie de la traduction par IA face à l’interprétation humaine traditionnelle, consultez traduction en temps réel vs interprétation simultanée.
Pourquoi cela compte pour les organisateurs d’événements
Une latence inférieure à une seconde signifie que les auditeurs peuvent suivre naturellement. Ils n’attendent pas avec gêne que la traduction rattrape son retard — ils entendent la version traduite suffisamment proche de l’originale pour que le rythme du discours soit préservé. En pratique, la plupart des publics rapportent qu’un délai constant de 0,5–1,0 seconde ressemble à une pause naturelle plutôt qu’à un retard technique.
225 langues signifient qu’aucun membre du public n’est exclu. Que l’événement serve une douzaine de langues ou deux cents, le même pipeline les gère toutes sans matériel supplémentaire, personnel ni temps de configuration.
Le pipeline fonctionne en continu pendant des heures sans fatigue — contrairement aux interprètes humains, qui rotent toutes les 20 minutes pour maintenir la précision. Une conférence de quatre heures traduite en huit langues exécute le même pipeline du début à la fin, avec une qualité constante tout au long de l’événement.
Le coût est déterminé par les pistes linguistiques, pas par la taille du public. Que 5 ou 350 personnes écoutent en français, le coût est d’une heure-langue par heure. Pour une analyse complète du modèle de facturation, consultez le modèle tarifaire à l’heure-langue.
En résumé
La traduction vocale en temps réel est un pipeline en trois étapes — reconnaître, traduire, synthétiser — qui convertit la voix d’un locuteur dans les langues de centaines d’auditeurs en moins d’une seconde. Chaque étape est un modèle d’IA éprouvé en production : Deepgram pour la reconnaissance vocale, Google Cloud pour la traduction et la synthèse vocale, WebRTC pour la diffusion. Ces composants ne sont pas expérimentaux. Ils fonctionnent à l’échelle dans des environnements de production chaque jour.
La technologie est suffisamment mature pour les conférences, les assemblées municipales, les salles de classe et les diffusions. Ce n’est pas une expérience de laboratoire — elle fonctionne dans des événements aujourd’hui, fournissant 225 langues avec une latence inférieure à une seconde à un coût d’environ $1.30 par heure-langue.
Vous voulez voir la traduction vocale en temps réel en action ? Démarrez une session gratuite — parlez dans l’une des 49 langues, votre public entend dans 225 langues. Sans configuration, sans carte bancaire.