Explainer

Wie Echtzeit-Sprachübersetzung funktioniert — vom Mikrofon zu 225 Sprachen

Echtzeit-Sprachübersetzung wandelt die Stimme eines Sprechers durch eine Pipeline aus Spracherkennung, maschineller Übersetzung und Sprachsynthese in übersetztes Audio in 225 Sprachen um. So funktioniert jede Stufe.

Zuletzt aktualisiert · 27. Mai 2026 9 Min. Lesezeit

Echtzeit-Sprachübersetzung wirkt wie Magie: Eine Person spricht, und Augenblick später hören Hunderte von Zuhörern dieselben Wörter in ihrer eigenen Sprache. Hinter dieser Erfahrung steht eine Software-Pipeline, die drei KI-Modelle nacheinander ausführt und den Weg vom gesprochenen Wort zum übersetzten Audio in weniger als einer Sekunde zurücklegt.

Dieser Artikel durchläuft jede Stufe dieser Pipeline — Spracherkennung, maschinelle Übersetzung und Sprachsynthese — und erklärt, wie sie zusammenwirken, um 225 Sprachen an ein Live-Publikum zu liefern.

Stufe 1: Spracherkennung — erfassen, was der Sprecher sagt

Wie Streaming-STT funktioniert

Die Pipeline beginnt in dem Moment, in dem der Sprecher den Mund öffnet. Der Browser nimmt das Audio vom Mikrofon auf und sendet es über WebRTC — dasselbe Protokoll, das auch für Videoanrufe verwendet wird — an eine LiveKit SFU (Selective Forwarding Unit). Die SFU leitet die Audiospur an den Übersetzungsagenten weiter, der auf dem Server läuft.

Der Agent wartet nicht auf einen vollständigen Satz. Stattdessen streamt er das Audio in kleinen Blöcken an Deepgram Nova-3, ein neuronales Spracherkennungsmodell. Deepgram liefert partielle Transkripte, die verfeinert werden, sobald mehr Audio eintrifft. Ein Satz wie „Guten Morgen zusammen und herzlich willkommen zur Konferenz” könnte als drei Teilergebnisse ankommen: „Guten Morgen”, dann „Guten Morgen zusammen und”, dann der vollständige Satz. Jede Verfeinerung aktualisiert die nachgelagerte Übersetzung nahezu in Echtzeit.

Dieser Streaming-Ansatz sorgt für geringe Latenz. Das System puffert nicht eine vollständige Äußerung, bevor es tätig wird — es beginnt die Verarbeitung innerhalb von Zehnteln von Millisekunden nach Empfang des Audios. Wenn der Sprecher einen Satz beendet, ist die Übersetzungspipeline bereits weit fortgeschritten.

Erkennung der Sprechersprache

Deepgram Nova-3 unterstützt 49 Sprechersprachcodes — Sprach-Region-Varianten wie amerikanisches Englisch (en-US), brasilianisches Portugiesisch (pt-BR) und vereinfachtes Chinesisch (zh-CN). Der Sprecher wählt seine Sprache beim Start der Sitzung. Dies ist wichtig, da eine genaue Spracherkennung die Kenntnis der Eingabesprache erfordert. Modelle mit „automatischer Erkennung” existieren, fügen jedoch Latenz hinzu und verringern die Genauigkeit bei seltenen Sprachpaaren — ein inakzeptabler Kompromiss in einer Live-Situation.

Für praktische Tipps zur optimalen Audioeingabe in die Pipeline — Mikrofonwahl, Platzierung und Raumakustik — siehe unseren Leitfaden zur Wahl des richtigen Mikrofons.

Stufe 2: Maschinelle Übersetzung — Bedeutung zwischen Sprachen übertragen

Die Übersetzungsengine

Sobald die Spracherkennungsstufe ein Transkript liefert, wird der Text in die maschinelle Übersetzung übergeben. Die Engine hängt vom Plan des Sprechers ab:

Kostenloser Tarif: Google Cloud NMT (Neural Machine Translation) — schnell und zuverlässig für die wichtigsten Sprachpaare. NMT ist ein in der Praxis bewährtes Modell, das auf Milliarden paralleler Sätze trainiert wurde und unkomplizierte Übersetzungen mit geringer Latenz verarbeitet.
Bezahlte Tarife (Starter, Pro, Max): DualModelTranslator — nutzt Google Cloud Translation LLM für etwa 100 Sprachen, bei denen große Sprachmodelle natürlichere und kontextbewusstere Ergebnisse liefern, und greift auf NMT für die verbleibenden Paare zurück. Der LLM-Vorteil ist real: Er handhabt Idiome, Registerwechsel, Fachterminologie und weitreichenden Kontext besser als statistische Ansätze. Für einfachere Paare — etwa Spanisch nach Portugiesisch — ist NMT schneller und ebenso genau, daher routet das System entsprechend.

Unterstützung von 225 Ausgabesprachen

Das System unterstützt 225 Ausgabesprachen, aufgeteilt in zwei Stufen:

51 Sprachen erhalten vollständiges Audio. Der übersetzte Text wird über Google Cloud TTS in Sprache synthetisiert und als Live-Audiostream geliefert.
174 weitere Sprachen erhalten Live-Textuntertitel. Die Übersetzung ist echt und übersetzt — nicht transkribiert — wird jedoch als scrollender Text statt als Audio geliefert.

Sprachen werden bei Bedarf aktiviert. Wenn ein Zuhörer einer Sitzung beitritt und seine Sprache wählt, erstellt die Pipeline einen Übersetzungsstrom für dieses spezifische Quell-Ziel-Paar. Wenn niemand Finnisch auswählt, wird keine finnische Übersetzung generiert — und es werden keine Sprachstunden dafür verbraucht. Siehe die vollständige Liste der unterstützten Sprachen für Audio- und Untertitelabdeckung.

Latenz im Übersetzungsschritt

Die maschinelle Übersetzung ist die schnellste Stufe der Pipeline:

NMT: typischerweise 50–150 ms pro Satzfragment
LLM: typischerweise 100–300 ms pro Fragment — höhere Qualität bei komplexem Text, marginal langsamer

Da die Streaming-Architektur partielle Transkripte bei ihrem Eintreffen an die Übersetzung weiterleitet, wartet das System nicht auf einen vollständigen Satz, bevor es übersetzt. Teilergebnisse werden verfeinert, sobald mehr Kontext verfügbar ist, was bedeutet, dass der Zuhörer einen stetigen Strom übersetzter Inhalte erhält statt einer Reihe diskreter Blöcke.

Stufe 3: Text-to-Speech — der Übersetzung eine Stimme geben

Wie TTS-Synthese funktioniert

Für die 51 Audiosprachen wird der übersetzte Text an Google Cloud TTS übergeben. Das Modell erzeugt eine natürlich klingende Audio-Waveform in der Zielsprache. Jede Sprache verfügt über ein eigenes Sprachmodell, das auf die Phonologie dieser Sprache abgestimmt ist — den Rhythmus, die Intonation und die Konsonant-Vokal-Muster, die Sprache natürlich statt roboterhaft klingen lassen.

Das synthetisierte Audio wird als neue Audiospur auf der LiveKit SFU veröffentlicht. Jede Sprache erhält eine eigene, von den anderen unabhängige Spur.

Audioauslieferung an die Zuhörer

Der Auslieferungsmechanismus ist WebRTC — dasselbe Protokoll, das für Videoanrufe verwendet wird, optimiert für Echtzeitmedien mit geringer Latenz. Jeder Zuhörer abonniert die Audiospur, die seiner gewählten Sprache entspricht. Kein Mischen, kein Umschalten — der Zuhörer hört einen durchgehenden Stream in seiner Sprache von Anfang bis Ende.

Zuhörer können über ein Telefon, Tablet oder einen Laptop beitreten. Für das vollständige Publikumserlebnis — wie ein Zuhörer einen QR-Code scannt, eine Sprache auswählt und sich verbindet — siehe wie QR-Code-Übersetzung funktioniert.

Die gesamte Pipeline in Zahlen

Pipeline-Stufe	Technologie	Latenz	Kosten pro Sprachstunde
Spracherkennung	Deepgram Nova-3 (Streaming)	200–400 ms	~$0.46
Übersetzung	Google Cloud NMT / Translation LLM	50–300 ms	~$0.02–0.08
Sprachsynthese	Google Cloud TTS	100–200 ms	~$0.79
Audioauslieferung	WebRTC über LiveKit SFU	<100 ms	$0 (selbst gehostet)
Ende zu Ende		350 ms–1 s	~$1.27–$1.33

Wo sich Latenz ansammelt

Die Ende-zu-Ende-Latenz hat drei Quellen:

Netzwerk-Eingang — die Zeit, die das Audio benötigt, um vom Browser des Sprechers über die LiveKit SFU zum Übersetzungsagenten zu gelangen. Dies hängt von der Internetverbindung des Sprechers ab, liegt aber bei einer stabilen Verbindung typischerweise unter 100 ms.
Verarbeitung — STT + Übersetzung + TTS. Dies ist der Großteil der Verzögerung: etwa 350–900 ms je nach Sprachpaar und ob das System NMT- oder LLM-Übersetzung verwendet.
Netzwerk-Ausgang — die Zeit, die die übersetzte Audiospur benötigt, um von der SFU zum Gerät jedes Zuhörers zu gelangen. Ebenfalls typischerweise unter 100 ms.

Die gesamte Ende-zu-Ende-Latenz für Audiosprachen liegt typischerweise zwischen 0,5 und 1,0 Sekunden. Sprachen mit Textuntertiteln überspringen den TTS-Schritt vollständig und kommen daher schneller an — allerdings ohne synthetisiertes Audio. Für einen tieferen Vergleich von KI-gesteuerter Übersetzung mit traditioneller menschlicher Verdolmetschung siehe Echtzeit-Übersetzung vs. Simultanverdolmetschung.

Warum dies für Veranstalter wichtig ist

Eine Latenz unter einer Sekunde bedeutet, dass Zuhörer natürlich folgen können. Sie warten nicht unangenehm darauf, dass die Übersetzung aufholt — sie hören die übersetzte Version so nah am Original, dass der Rhythmus des Vortrags erhalten bleibt. In der Praxis berichten die meisten Zuhörer, dass eine konstante Verzögerung von 0,5–1,0 Sekunden wie eine natürliche Pause und nicht wie eine technische Verzögerung wirkt.

225 Sprachen bedeuten, dass niemand im Publikum ausgeschlossen wird. Ob die Veranstaltung ein Dutzend Sprachen oder zweihundert bedient — dieselbe Pipeline verarbeitet alle ohne zusätzliche Hardware, Personal oder Einrichtungszeit.

Die Pipeline läuft stundenlang ohne Ermüdung durch — im Gegensatz zu menschlichen Dolmetschern, die alle 20 Minuten rotieren, um die Genauigkeit zu erhalten. Eine vierstündige Konferenz, die in acht Sprachen übersetzt wird, durchläuft dieselbe Pipeline von Anfang bis Ende mit gleichbleibender Qualität.

Die Kosten richten sich nach den Sprachspuren, nicht nach der Publikumsgröße. Ob 5 oder 350 Personen auf Französisch zuhören — die Kosten betragen eine Sprachstunde pro Stunde. Für eine vollständige Aufschlüsselung des Abrechnungsmodells siehe das Sprachstunden-Preismodell.

Fazit

Echtzeit-Sprachübersetzung ist eine dreistufige Pipeline — erkennen, übersetzen, synthetisieren — die die Stimme eines Sprechers in weniger als einer Sekunde in die Sprachen Hunderttausender Zuhörer umwandelt. Jede Stufe ist ein in der Praxis bewährtes KI-Modell: Deepgram für Spracherkennung, Google Cloud für Übersetzung und Sprachsynthese, WebRTC für die Auslieferung. Die Komponenten sind nicht experimentell. Sie laufen täglich im produktiven Einsatz.

Die Technologie ist reif genug für Konferenzen, Bürgerversammlungen, Klassenzimmer und Übertragungen. Es ist kein Laborexperiment — es läuft heute auf Veranstaltungen und liefert 225 Sprachen mit subsekündiger Latenz zu Kosten von etwa $1.30 pro Sprachstunde.

Sie möchten Echtzeit-Sprachübersetzung in Aktion erleben? Starten Sie eine kostenlose Sitzung — sprechen Sie in einer von 49 Sprachen, Ihr Publikum hört in 225 Sprachen. Keine Einrichtung, keine Kreditkarte.