Explainer

Jak działa tłumaczenie mowy w czasie rzeczywistym — od mikrofonu do 225 języków

Tłumaczenie mowy w czasie rzeczywistym zamienia głos prelegenta w przetłumaczony dźwięk w 225 językach za pomocą potoku rozpoznawania mowy, tłumaczenia maszynowego i syntezy mowy. Oto jak działa każdy etap.

Ostatnia aktualizacja · 27 maja 2026 9 min czytania

Tłumaczenie mowy w czasie rzeczywistym wydaje się magią: jedna osoba mówi, a chwilę później setki słuchaczy słyszą te same słowa w swoim własnym języku. Za tym doświadczeniem kryje się potok programowy wykonujący sekwencyjnie trzy modele sztucznej inteligencji, pokonujący drogę od wypowiedzianego słowa do przetłumaczonego dźwięku w mniej niż sekundę.

Ten artykuł przeprowadza przez każdy etap tego potoku — rozpoznawanie mowy, tłumaczenie maszynowe i syntezę mowy — oraz wyjaśnia, jak łączą się one, aby dostarczyć 225 języków do publiczności na żywo.

Etap 1: Mowa na tekst — rejestrowanie tego, co mówi prelegent

Jak działa STT w trybie strumieniowym

Potok uruchamia się w momencie, gdy prelegent otwiera usta. Przeglądarka rejestruje dźwięk z mikrofonu i wysyła go przez WebRTC — ten sam protokół, który jest używany do połączeń wideo — do LiveKit SFU (Selective Forwarding Unit). SFU kieruje ścieżkę dźwiękową do agenta tłumaczeniowego działającego na serwerze.

Agent nie czeka na pełne zdanie. Zamiast tego przesyła strumieniowo dźwięk w małych fragmentach do Deepgram Nova-3, neuronowego modelu rozpoznawania mowy. Deepgram zwraca częściowe transkrypcje, które są udoskonalane w miarę napływania kolejnych fragmentów dźwięku. Zdanie takie jak „dzień dobry państwu i witam na konferencji” może dotrzeć jako trzy częściowe wyniki: „dzień dobry”, następnie „dzień dobry państwu i”, a na koniec pełne zdanie. Każde udoskonalenie aktualizuje tłumaczenie w dalszej części potoku niemal w czasie rzeczywistym.

Podejście strumieniowe jest tym, co utrzymuje niskie opóźnienie. System nie buforuje całej wypowiedzi przed podjęciem działania — rozpoczyna przetwarzanie w ciągu kilkudziesięciu milisekund od odebrania dźwięku. Zanim prelegent skończy zdanie, potok tłumaczeniowy jest już w zaawansowanym stadium.

Wykrywanie języka prelegenta

Deepgram Nova-3 obsługuje 49 kodów językowych prelegenta — warianty językowo-regionalne, takie jak amerykański angielski (en-US), brazylijski portugalski (pt-BR) i uproszczony chiński (zh-CN). Prelegent wybiera swój język przy rozpoczynaniu sesji. Jest to istotne, ponieważ dokładne rozpoznawanie mowy wymaga znajomości języka wejściowego. Istnieją modele „automatycznego wykrywania”, ale dodają one opóźnienia i zmniejszają dokładność dla rzadkich par językowych — niedopuszczalny kompromis w sytuacji na żywo.

Praktyczne wskazówki dotyczące uzyskania najczystszego dźwięku w potoku — wybór mikrofonu, jego ustawienie oraz akustyka pomieszczenia — znajdziesz w naszym przewodniku na temat wyboru odpowiedniego mikrofonu.

Etap 2: Tłumaczenie maszynowe — przekazywanie znaczenia między językami

Silnik tłumaczeniowy

Gdy etap mowy na tekst wygeneruje transkrypcję, tekst trafia do tłumaczenia maszynowego. Silnik zależy od planu prelegenta:

Darmowy plan: Google Cloud NMT (Neural Machine Translation) — szybki i niezawodny dla głównych par językowych. NMT to sprawdzony w produkcji model wytrenowany na miliardach zdań równoległych, który obsługuje proste tłumaczenia z niskim opóźnieniem.
Plany płatne (Starter, Pro, Max): DualModelTranslator — wykorzystuje Google Cloud Translation LLM dla około 100 języków, w których duże modele językowe generują bardziej naturalne i uwzględniające kontekst wyniki, z fallbackiem na NMT dla pozostałych par. Przewaga LLM jest realna: lepiej radzi sobie z idiomami, zmianami rejestru, terminologią specjalistyczną i kontekstem długodystansowym niż podejścia statystyczne. Dla prostszych par — na przykład z hiszpańskiego na portugalski — NMT jest szybszy i równie dokładny, dlatego system kieruje ruch odpowiednio.

Obsługa 225 języków wyjściowych

System obsługuje 225 języków wyjściowych, podzielonych na dwa poziomy:

51 języków otrzymuje pełny dźwięk. Przetłumaczony tekst jest syntetyzowany do mowy za pomocą Google Cloud TTS i dostarczany jako strumień dźwiękowy na żywo.
174 dodatkowe języki otrzymują napisy tekstowe na żywo. Tłumaczenie jest prawdziwe i przetłumaczone — nie transkrybowane — ale dostarczane jako przewijający się tekst zamiast dźwięku.

Języki są aktywowane na żądanie. Gdy słuchacz dołącza do sesji i wybiera swój język, potok tworzy strumień tłumaczenia dla tej konkretnej pary źródłowo-docelowej. Jeśli nikt nie wybierze języka fińskiego, nie jest generowane żadne tłumaczenie na fiński — i nie są zużywane żadne godziny-językowe. Zobacz pełną listę obsługiwanych języków dla pokrycia dźwiękiem i napisami.

Opóźnienie na etapie tłumaczenia

Tłumaczenie maszynowe to najszybszy etap w potoku:

NMT: zazwyczaj 50–150 ms na fragment zdania
LLM: zazwyczaj 100–300 ms na fragment — wyższa jakość dla złożonego tekstu, marginalnie wolniejszy

Ponieważ architektura strumieniowa przekazuje częściowe transkrypcje do tłumaczenia zaraz po ich nadejściu, system nie czeka na pełne zdanie przed tłumaczeniem. Częściowe wyniki są udoskonalane w miarę udostępniania większej ilości kontekstu, co oznacza, że słuchacz otrzymuje stały strumień przetłumaczonej treści zamiast serii odrębnych paczek.

Etap 3: Tekst na mowę — nadanie głosu tłumaczeniu

Jak działa synteza TTS

Dla 51 języków dźwiękowych przetłumaczony tekst trafia do Google Cloud TTS. Model generuje naturalnie brzmiącą formę falową dźwięku w języku docelowym. Każdy język ma własny model głosowy dostrojony do fonologii danego języka — rytmu, intonacji i wzorców spółgłoskowo-samogłoskowych, które sprawiają, że mowa brzmi naturalnie, a nie mechanicznie.

Zsyntetyzowany dźwięk jest publikowany jako nowa ścieżka dźwiękowa w LiveKit SFU. Każdy język otrzymuje własną ścieżkę, niezależną od pozostałych.

Dostarczanie dźwięku słuchaczom

Mechanizm dostarczania to WebRTC — ten sam protokół, który jest używany do połączeń wideo, zoptymalizowany pod kątem multimediów w czasie rzeczywistym o niskim opóźnieniu. Każdy słuchacz subskrybuje ścieżkę dźwiękową odpowiadającą wybranemu językowi. Bez mikserowania, bez przełączania — słuchacz słyszy jeden ciągły strumień w swoim języku od początku do końca.

Słuchacze mogą dołączyć za pomocą telefonu, tabletu lub laptopa. Pełne doświadczenie publiczności — jak słuchacz skanuje kod QR, wybiera język i się łączy — opisano w artykule jak działa tłumaczenie za pomocą kodu QR.

Pełny potok w liczbach

Etap potoku	Technologia	Opóźnienie	Koszt na godzinę-językową
Mowa na tekst	Deepgram Nova-3 (strumieniowanie)	200–400 ms	~$0.46
Tłumaczenie	Google Cloud NMT / Translation LLM	50–300 ms	~$0.02–0.08
Tekst na mowę	Google Cloud TTS	100–200 ms	~$0.79
Dostarczanie dźwięku	WebRTC przez LiveKit SFU	<100 ms	$0 (self-hosted)
End-to-end		350 ms–1 s	~$1.27–$1.33

Gdzie kumuluje się opóźnienie

Opóźnienie end-to-end ma trzy źródła:

Wejście sieciowe — czas potrzebny na przejście dźwięku z przeglądarki prelegenta, przez LiveKit SFU, do agenta tłumaczeniowego. Zależy to od połączenia internetowego prelegenta, ale zazwyczaj wynosi poniżej 100 ms przy stabilnym połączeniu.
Przetwarzanie — STT + tłumaczenie + TTS. To stanowi większość opóźnienia: około 350–900 ms w zależności od pary językowej i tego, czy system używa tłumaczenia NMT czy LLM.
Wyjście sieciowe — czas potrzebny na przejście przetłumaczonej ścieżki dźwiękowej z SFU do urządzenia każdego słuchacza. Również zazwyczaj poniżej 100 ms.

Całkowite opóźnienie end-to-end dla języków dźwiękowych zazwyczaj mieści się między 0,5 a 1,0 sekundy. Języki z napisami tekstowymi całkowicie pomijają etap TTS, dlatego docierają szybciej — ale bez zsyntetyzowanego dźwięku. Aby uzyskać głębsze porównanie tłumaczenia opartego na sztucznej inteligencji z tradycyjną interpretacją ludzką, zobacz tłumaczenie w czasie rzeczywistym vs interpretacja symultaniczna.

Dlaczego to ma znaczenie dla organizatorów wydarzeń

Opóźnienie poniżej sekundy oznacza, że słuchacze mogą śledzić prezentację w naturalny sposób. Nie czekają niekomfortowo, aż tłumaczenie nadgoni — słyszą przetłumaczoną wersję wystarczająco blisko oryginału, aby zachować rytm wystąpienia. W praktyce większość publiczności zgłasza, że stałe opóźnienie rzędu 0,5–1,0 sekundy jest odbierane jako naturalna pauza, a nie techniczne opóźnienie.

225 języków oznacza, że żaden członek publiczności nie jest wykluczony. Niezależnie od tego, czy wydarzenie obsługuje tuzin języków czy dwieście, ten sam potok radzi sobie ze wszystkimi bez dodatkowego sprzętu, personelu czy czasu na konfigurację.

Potok działa nieprzerwanie przez wiele godzin bez zmęczenia — w przeciwieństwie do ludzkich tłumaczy, którzy rotują co 20 minut, aby utrzymać dokładność. Czterogodzinna konferencja tłumaczona na osiem języków uruchamia ten sam potok od początku do końca, ze stałą jakością przez cały czas.

Koszt jest determinowany przez ścieżki językowe, a nie wielkość publiczności. Niezależnie od tego, czy po francusku słucha 5 czy 350 osób, koszt wynosi jedną godzinę-językową za godzinę. Pełne zestawienie modelu rozliczeniowego znajdziesz w artykule o modelu cenowym godzin-językowych.

Podsumowanie

Tłumaczenie mowy w czasie rzeczywistym to trójetapowy potok — rozpoznawanie, tłumaczenie, synteza — który w mniej niż sekundę zamienia głos jednego prelegenta w setki języków dla słuchaczy. Każdy etap to sprawdzony w produkcji model sztucznej inteligencji: Deepgram do rozpoznawania mowy, Google Cloud do tłumaczenia i syntezy mowy, WebRTC do dostarczania. Komponenty nie są eksperymentalne. Na co dzień działają na dużą skalę w środowiskach produkcyjnych.

Technologia jest wystarczająco dojrzała dla konferencji, zgromadzeń publicznych, sal lekcyjnych i transmisji. To nie eksperyment laboratoryjny — działa na wydarzeniach już dziś, dostarczając 225 języków z opóźnieniem poniżej sekundy po koszcie około $1.30 za godzinę-językową.

Chcesz zobaczyć tłumaczenie mowy w czasie rzeczywistym w akcji? Rozpocznij darmową sesję — mów w jednym z 49 języków, Twoja publiczność słucha w 225 językach. Bez konfiguracji, bez karty kredytowej.