Explainer

Hoe real-time spraakvertaling werkt — van microfoon tot 225 talen

Real-time spraakvertaling zet de stem van een spreker om in vertaald audio in 225 talen via een pijplijn van spraakherkenning, machinevertaling en spraaksynthese. Hier is hoe elke fase werkt.

Laatst bijgewerkt · 27 mei 2026 9 min leestijd

Real-time spraakvertaling lijkt op magie: één persoon spreekt, en even later horen honderden luisteraars dezelfde woorden in hun eigen taal. Achter die ervaring schuilt een software-pijplijn die drie AI-modellen na elkaar uitvoert en het traject van gesproken woord naar vertaald audio in minder dan een seconde aflegt.

Dit artikel doorloopt elke fase van die pijplijn — spraakherkenning, machinevertaling en spraaksynthese — en legt uit hoe ze samenwerken om 225 talen aan een live publiek te leveren.

Fase 1: Spraak naar tekst — vastleggen wat de spreker zegt

Hoe streaming-STT werkt

De pijplijn start op het moment dat de spreker de mond opendoet. De browser legt audio vast via de microfoon en stuurt deze over WebRTC — hetzelfde protocol dat wordt gebruikt voor videogesprekken — naar een LiveKit SFU (Selective Forwarding Unit). De SFU stuurt de audiospoor door naar de vertalingsagent die op de server draait.

De agent wacht niet op een volledige zin. In plaats daarvan streamt hij audio in kleine blokken naar Deepgram Nova-3, een neuraal spraakherkenningsmodel. Deepgram retourneert gedeeltelijke transcripties die verfijnd worden naarmate er meer audio binnenkomt. Een zin als “goedemorgen allemaal en welkom op de conferentie” kan als drie gedeeltelijke resultaten binnenkomen: “goedemorgen”, dan “goedemorgen allemaal en”, en tot slot de volledige zin. Elke verfijning werkt de downstream-vertaling bij in near-real-time.

Deze streaming-aanpak is wat de latentie laag houdt. Het systeem buffert niet een volledige uiting voordat het actie onderneemt — het begint met verwerking binnen tientallen milliseconden na ontvangst van de audio. Tegen de tijd dat de spreker een zin voltooit, is de vertalingspijplijn al goed op weg.

Detectie van de taal van de spreker

Deepgram Nova-3 ondersteunt 49 spreker-taalcodes — taal-regiovarianten zoals Amerikaans Engels (en-US), Braziliaans Portugees (pt-BR) en Vereenvoudigd Chinees (zh-CN). De spreker selecteert zijn taal bij het starten van de sessie. Dit is belangrijk omdat nauwkeurige spraakherkenning de invoertaal moet kennen. Modellen met “automatische detectie” bestaan, maar ze voegen latentie toe en verminderen de nauwkeurigheid voor zeldzame taalparen — een onacceptabele afweging in een live-omgeving.

Voor praktische tips over het leveren van de schoonste audio aan de pijplijn — microfoonkeuze, plaatsing en ruimteakoestiek — zie onze gids over de juiste microfoon kiezen.

Fase 2: Machinevertaling — betekenis overdragen tussen talen

De vertalingsengine

Zodra de spraak-naar-tekst-fase een transcript oplevert, wordt de tekst doorgegeven aan de machinevertaling. De engine is afhankelijk van het plan van de spreker:

Gratis laag: Google Cloud NMT (Neural Machine Translation) — snel en betrouwbaar voor de belangrijkste taalparen. NMT is een in productie bewezen model dat is getraind op miljarden parallelle zinnen en eenvoudige vertalingen met lage latentie verwerkt.
Betaalde lagen (Starter, Pro, Max): DualModelTranslator — gebruikt Google Cloud Translation LLM voor ongeveer 100 talen waar grote taalmodellen natuurlijkere en contextbewustere resultaten opleveren, met een fallback naar NMT voor de overige paren. Het LLM-voordeel is reëel: het gaat beter om met idioom, registerverschuivingen, vakterminologie en langetermijncontext dan statistische benaderingen. Voor eenvoudigere paren — Spaans naar Portugees bijvoorbeeld — is NMT sneller en even nauwkeurig, dus het systeem routeert dienovereenkomstig.

Ondersteuning van 225 uitvoertalen

Het systeem ondersteunt 225 uitvoertalen, verdeeld over twee niveaus:

51 talen ontvangen volledig audio. De vertaalde tekst wordt gesynthetiseerd tot spraak via Google Cloud TTS en geleverd als een live-audiostream.
174 extra talen ontvangen live-tekstondertitels. De vertaling is echt en vertaald — niet getranscribeerd — maar geleverd als scrollende tekst in plaats van audio.

Talen worden op aanvraag geactiveerd. Wanneer een luisteraar deelneemt aan een sessie en zijn taal kiest, creëert de pijplijn een vertaalstroom voor dat specifieke bron-doel-paar. Als niemand Fins selecteert, wordt er geen Finse vertaling gegenereerd — en worden er geen taaluren voor verbruikt. Zie de volledige lijst met ondersteunde talen voor audio- en ondertiteldekking.

Latentie in de vertaalstap

Machinevertaling is de snelste fase in de pijplijn:

NMT: typisch 50–150 ms per zinfragment
LLM: typisch 100–300 ms per fragment — hogere kwaliteit voor complexe tekst, marginaal langzamer

Omdat de streaming-architectuur gedeeltelijke transcripties aan de vertaling levert zodra ze binnenkomen, wacht het systeem niet op een volledige zin voordat het vertaalt. Gedeeltelijke resultaten worden verfijnd naarmate er meer context beschikbaar komt, wat betekent dat de luisteraar een gestage stroom van vertaalde inhoud ontvangt in plaats van een reeks afzonderlijke uitbarstingen.

Fase 3: Tekst naar spraak — de vertaling een stem geven

Hoe TTS-synthese werkt

Voor de 51 audiotalen wordt de vertaalde tekst doorgegeven aan Google Cloud TTS. Het model genereert een natuurlijk klinkende golfvorm in de doeltaal. Elke taal heeft zijn eigen spraakmodel dat is afgestemd op de fonologie van die taal — het ritme, de intonatie en de medeklinker-klinkerpatronen die spraak natuurlijk in plaats van robotachtig laten klinken.

De gesynthetiseerde audio wordt gepubliceerd als een nieuwe audiospoor op de LiveKit SFU. Elke taal krijgt zijn eigen spoor, onafhankelijk van de andere.

Audiolevering aan luisteraars

Het leveringsmechanisme is WebRTC — hetzelfde protocol dat wordt gebruikt voor videogesprekken, geoptimaliseerd voor realtimemedia met lage latentie. Elke luisteraar abonneert zich op de audiospoor die overeenkomt met zijn gekozen taal. Geen mixing, geen schakelen — de luisteraar hoort één doorlopende stream in zijn taal van begin tot eind.

Luisteraars kunnen deelnemen via een telefoon, tablet of laptop. Voor de volledige publiekservaring — hoe een luisteraar een QR-code scant, een taal kiest en verbinding maakt — zie hoe QR-code-vertaling werkt.

De volledige pijplijn in cijfers

Pijplijnfase	Technologie	Latentie	Kosten per taaluur
Spraak naar tekst	Deepgram Nova-3 (streaming)	200–400 ms	~$0.46
Vertaling	Google Cloud NMT / Translation LLM	50–300 ms	~$0.02–0.08
Tekst naar spraak	Google Cloud TTS	100–200 ms	~$0.79
Audiolevering	WebRTC via LiveKit SFU	<100 ms	$0 (self-hosted)
End-to-end		350 ms–1 s	~$1.27–$1.33

Waar latentie zich ophoopt

End-to-end-latentie heeft drie bronnen:

Netwerk-invoer — de tijd die audio nodig heeft om van de browser van de spreker, via de LiveKit SFU, naar de vertalingsagent te reizen. Dit hangt af van de internetverbinding van de spreker, maar bedraagt typisch minder dan 100 ms bij een stabiele verbinding.
Verwerking — STT + vertaling + TTS. Dit is het grootste deel van de vertraging: ongeveer 350–900 ms, afhankelijk van het taalpaar en of het systeem NMT- of LLM-vertaling gebruikt.
Netwerk-uitvoer — de tijd die de vertaalde audiospoor nodig heeft om van de SFU naar het apparaat van elke luisteraar te reizen. Eveneens typisch minder dan 100 ms.

De totale end-to-end-latentie voor audiotalen ligt typisch tussen 0,5 en 1,0 seconden. Talen met tekstondertitels slaan de TTS-stap volledig over, waardoor ze sneller arriveren — maar zonder gesynthetiseerde audio. Voor een diepgaande vergelijking van AI-gestuurde vertaling met traditionele menselijke interpretatie, zie real-time vertaling vs. simultaaninterpretatie.

Waarom dit belangrijk is voor evenementorganisatoren

Sub-seconde latentie betekent dat luisteraars natuurlijk kunnen volgen. Ze wachten niet ongemakkelijk tot de vertaling inhalen — ze horen de vertaalde versie dicht genoeg bij het origineel om het ritme van de presentatie te behouden. In de praktijk geven de meeste publieken aan dat een consistente vertraging van 0,5–1,0 seconde aanvoelt als een natuurlijke pauze in plaats van een technische vertraging.

225 talen betekent dat geen enkel publiekslid wordt uitgesloten. Of het evenement nu een dozijn talen of tweehonderd bedient, dezelfde pijplijn verwerkt ze allemaal zonder extra hardware, personeel of opstellingstijd.

De pijplijn draait urenlang continu zonder vermoeidheid — in tegenstelling tot menselijke tolken, die elke 20 minuten rouleren om de nauwkeurigheid te behouden. Een conferentie van vier uur vertaald naar acht talen draait dezelfde pijplijn van begin tot eind, met consistente kwaliteit gedurende de hele sessie.

De kosten worden bepaald door taalsporen, niet door de grootte van het publiek. Of er nu 5 of 350 mensen in het Frans luisteren, de kosten bedragen één taaluur per uur. Voor een volledig overzicht van het facturatiemodel, zie het taaluur-prijsmodel.

Kort samengevat

Real-time spraakvertaling is een pijplijn in drie fasen — herkennen, vertalen, synthetiseren — die de stem van één spreker omzet in de talen van honderden luisteraars in minder dan een seconde. Elke fase is een in productie bewezen AI-model: Deepgram voor spraakherkenning, Google Cloud voor vertaling en spraaksynthese, WebRTC voor levering. De componenten zijn niet experimenteel. Ze draaien op schaal in productieomgevingen elke dag.

De technologie is volwassen genoeg voor conferenties, raadsvergaderingen, klassen en uitzendingen. Het is geen labelexperiment — het draait vandaag op evenementen en levert 225 talen met sub-seconde latentie tegen een kostprijs van ongeveer $1.30 per taaluur.

Wil je real-time spraakvertaling in actie zien? Start een gratis sessie — spreek in een van de 49 talen, je publiek luistert in 225 talen. Geen configuratie, geen creditcard.