Come funziona la traduzione vocale in tempo reale — dal microfono a 225 lingue
La traduzione vocale in tempo reale converte la voce di un oratore in audio tradotto in 225 lingue tramite una pipeline di riconoscimento vocale, traduzione automatica e sintesi vocale. Ecco come funziona ciascuna fase.
La traduzione vocale in tempo reale sembra magia: una persona parla e, pochi istanti dopo, centinaia di ascoltatori sentono le stesse parole nella propria lingua. Dietro questa esperienza c’è una pipeline software che esegue tre modelli di IA in sequenza, completando il percorso dalla parola parlata all’audio tradotto in meno di un secondo.
Questo articolo esamina ogni fase di questa pipeline — riconoscimento vocale, traduzione automatica e sintesi vocale — e spiega come si combinano per fornire 225 lingue a un pubblico dal vivo.
Fase 1: Dal parlato al testo — catturare ciò che dice l’oratore
Come funziona lo STT in streaming
La pipeline inizia nel momento in cui l’oratore apre bocca. Il browser cattura l’audio dal microfono e lo invia tramite WebRTC — lo stesso protocollo utilizzato per le videochiamate — a una LiveKit SFU (Selective Forwarding Unit). La SFU instrada la traccia audio verso l’agente di traduzione in esecuzione sul server.
L’agente non aspetta una frase completa. Invece, trasmette l’audio in piccoli blocchi a Deepgram Nova-3, un modello neurale di riconoscimento vocale. Deepgram restituisce trascrizioni parziali che vengono affinate man mano che arriva nuovo audio. Una frase come “buongiorno a tutti e benvenuti alla conferenza” potrebbe arrivare come tre risultati parziali: “buongiorno”, poi “buongiorno a tutti e”, infine la frase completa. Ogni affinamento aggiorna la traduzione a valle quasi in tempo reale.
Questo approccio in streaming è ciò che mantiene bassa la latenza. Il sistema non accumula un’intera enunciazione prima di agire — inizia l’elaborazione entro decine di millisecondi dalla ricezione dell’audio. Quando l’oratore termina una frase, la pipeline di traduzione è già ampiamente avviata.
Rilevamento della lingua dell’oratore
Deepgram Nova-3 supporta 49 codici di lingua dell’oratore — varianti lingua-regione come l’inglese americano (en-US), il portoghese brasiliano (pt-BR) e il cinese semplificato (zh-CN). L’oratore seleziona la propria lingua all’avvio della sessione. Questo è importante perché un riconoscimento vocale accurato richiede la conoscenza della lingua di input. Esistono modelli di “rilevamento automatico”, ma aggiungono latenza e riducono l’accuratezza per le coppie linguistiche rare — un compromesso inaccettabile in una situazione dal vivo.
Per consigli pratici su come ottenere l’audio più pulito nella pipeline — scelta del microfono, posizionamento e acustica dell’ambiente — consulta la nostra guida su come scegliere il microfono giusto.
Fase 2: Traduzione automatica — convertire il significato tra le lingue
Il motore di traduzione
Una volta che la fase di riconoscimento vocale produce una trascrizione, il testo passa alla traduzione automatica. Il motore dipende dal piano dell’oratore:
- Piano gratuito: Google Cloud NMT (Neural Machine Translation) — veloce e affidabile per le principali coppie linguistiche. NMT è un modello collaudato in produzione, addestrato su miliardi di frasi parallele, e gestisce traduzioni dirette con bassa latenza.
- Piani a pagamento (Starter, Pro, Max): DualModelTranslator — utilizza Google Cloud Translation LLM per circa 100 lingue in cui i grandi modelli linguistici producono risultati più naturali e contestualmente consapevoli, con fallback a NMT per le coppie rimanenti. Il vantaggio dell’LLM è reale: gestisce meglio idiomi, cambi di registro, terminologia specialistica e contesto a lungo raggio rispetto agli approcci statistici. Per coppie più semplici — dallo spagnolo al portoghese, ad esempio — NMT è più veloce e ugualmente accurato, quindi il sistema instrada di conseguenza.
Gestione di 225 lingue di output
Il sistema supporta 225 lingue di output, suddivise in due livelli:
- 51 lingue ricevono l’audio completo. Il testo tradotto viene sintetizzato in voce tramite Google Cloud TTS e consegnato come flusso audio dal vivo.
- 174 lingue aggiuntive ricevono sottotitoli testuali in tempo reale. La traduzione è reale e tradotta — non trascritta — ma consegnata come testo a scorrimento anziché come audio.
Le lingue vengono attivate su richiesta. Quando un ascoltatore si unisce a una sessione e sceglie la propria lingua, la pipeline crea un flusso di traduzione per quella specifica coppia sorgente-destinazione. Se nessuno seleziona il finlandese, non viene generata nessuna traduzione in finlandese — e non vengono consumate ore-lingua. Consulta l’elenco completo delle lingue supportate per la copertura audio e sottotitoli.
Latenza nella fase di traduzione
La traduzione automatica è la fase più rapida della pipeline:
- NMT: tipicamente 50–150 ms per frammento di frase
- LLM: tipicamente 100–300 ms per frammento — qualità superiore per testi complessi, marginalmente più lento
Poiché l’architettura in streaming alimenta le trascrizioni parziali nella traduzione man mano che arrivano, il sistema non aspetta una frase completa prima di tradurre. I risultati parziali vengono affinati man mano che diventa disponibile maggior contesto, il che significa che l’ascoltatore riceve un flusso costante di contenuti tradotti anziché una serie di raffiche discrete.
Fase 3: Dal testo alla voce — dare voce alla traduzione
Come funziona la sintesi TTS
Per le 51 lingue audio, il testo tradotto passa a Google Cloud TTS. Il modello genera una forma d’onda dal suono naturale nella lingua di destinazione. Ogni lingua ha un proprio modello vocale calibrato sulla fonologia di quella lingua — il ritmo, l’intonazione e i pattern consonante-vocale che rendono il parlato naturale anziché robotico.
L’audio sintetizzato viene pubblicato come nuova traccia audio sulla LiveKit SFU. Ogni lingua ottiene la propria traccia, indipendente dalle altre.
Consegna dell’audio agli ascoltatori
Il meccanismo di consegna è WebRTC — lo stesso protocollo utilizzato per le videochiamate, ottimizzato per contenuti multimediali in tempo reale a bassa latenza. Ogni ascoltatore si sottoscrive alla traccia audio corrispondente alla lingua scelta. Nessun mixing, nessuna commutazione — l’ascoltatore sente un flusso continuo nella propria lingua dall’inizio alla fine.
Gli ascoltatori possono partecipare da telefono, tablet o portatile. Per l’esperienza completa del pubblico — come un ascoltatore scansiona un QR code, sceglie una lingua e si connette — consulta come funziona la traduzione tramite QR code.
L’intera pipeline in numeri
| Fase della pipeline | Tecnologia | Latenza | Costo per ora-lingua |
|---|---|---|---|
| Dal parlato al testo | Deepgram Nova-3 (streaming) | 200–400 ms | ~$0.46 |
| Traduzione | Google Cloud NMT / Translation LLM | 50–300 ms | ~$0.02–0.08 |
| Dal testo alla voce | Google Cloud TTS | 100–200 ms | ~$0.79 |
| Consegna audio | WebRTC tramite LiveKit SFU | <100 ms | $0 (self-hosted) |
| End-to-end | 350 ms–1 s | ~$1.27–$1.33 |
Dove si accumula la latenza
La latenza end-to-end ha tre fonti:
- Ingresso di rete — il tempo necessario affinché l’audio viaggi dal browser dell’oratore, attraverso la LiveKit SFU, fino all’agente di traduzione. Dipende dalla connessione internet dell’oratore, ma è tipicamente inferiore a 100 ms su una connessione stabile.
- Elaborazione — STT + traduzione + TTS. Questa è la maggior parte del ritardo: circa 350–900 ms a seconda della coppia linguistica e dell’uso di traduzione NMT o LLM.
- Uscita di rete — il tempo necessario affinché la traccia audio tradotta viaggi dalla SFU al dispositivo di ogni ascoltatore. Anche in questo caso, tipicamente inferiore a 100 ms.
La latenza end-to-end totale per le lingue audio si colloca tipicamente tra 0,5 e 1,0 secondi. Le lingue con sottotitoli testuali saltano completamente la fase TTS, quindi arrivano più velocemente — ma senza audio sintetizzato. Per un confronto approfondito tra traduzione basata sull’IA e interpretazione umana tradizionale, consulta traduzione in tempo reale vs interpretazione simultanea.
Perché questo conta per gli organizzatori di eventi
Una latenza inferiore al secondo significa che gli ascoltatori possono seguire in modo naturale. Non rimangono in attesa che la traduzione raggiunga il originale — sentono la versione tradotta abbastanza vicina all’originale da preservare il ritmo del discorso. In pratica, la maggior parte dei pubblici riferisce che un ritardo costante di 0,5–1,0 secondi viene percepito come una pausa naturale anziché come un ritardo tecnico.
225 lingue significano che nessun membro del pubblico viene escluso. Che l’evento serva una dozzina di lingue o duecento, la stessa pipeline le gestisce tutte senza hardware aggiuntivo, personale o tempo di configurazione.
La pipeline funziona ininterrottamente per ore senza affaticamento — a differenza degli interpreti umani, che si alternano ogni 20 minuti per mantenere l’accuratezza. Una conferenza di quattro ore tradotta in otto lingue esegue la stessa pipeline dall’inizio alla fine, con qualità costante per tutto il tempo.
Il costo è determinato dalle tracce linguistiche, non dalla dimensione del pubblico. Che ascoltino in francese 5 o 350 persone, il costo è di un’ora-lingua per ora. Per un’analisi completa del modello di fatturazione, consulta il modello di prezzo a ore-lingua.
In sintesi
La traduzione vocale in tempo reale è una pipeline in tre fasi — riconoscere, tradurre, sintetizzare — che converte la voce di un oratore nelle lingue di centinaia di ascoltatori in meno di un secondo. Ogni fase è un modello di IA collaudato in produzione: Deepgram per il riconoscimento vocale, Google Cloud per la traduzione e la sintesi vocale, WebRTC per la consegna. I componenti non sono sperimentali. Funzionano su larga scala in ambienti di produzione ogni giorno.
La tecnologia è abbastanza matura per conferenze, assemblee comunali, aule e trasmissioni. Non è un esperimento di laboratorio — è operativa oggi negli eventi, fornendo 225 lingue con latenza inferiore al secondo a un costo di circa $1.30 per ora-lingua.
Vuoi vedere la traduzione vocale in tempo reale in azione? Inizia una sessione gratuita — parla in una qualsiasi delle 49 lingue, il tuo pubblico ascolta in 225. Nessuna configurazione, nessuna carta di credito.