Explainer

Как работает перевод речи в реальном времени — от микрофона к 225 языкам

Перевод речи в реальном времени преобразует голос говорящего в переведённый звук на 225 языках через конвейер распознавания речи, машинного перевода и синтеза речи. Вот как работает каждый этап.

Последнее обновление · 27 мая 2026 г. 9 мин чтения

Перевод речи в реальном времени кажется магией: один человек говорит, и мгновения спустя сотни слушателей слышат те же слова на своём языке. За этим опытом стоит программный конвейер, последовательно запускающий три модели ИИ и проходящий путь от произнесённого слова до переведённого звука менее чем за секунду.

Эта статья последовательно рассматривает каждый этап конвейера — распознавание речи, машинный перевод и синтез речи — и объясняет, как они объединяются для доставки 225 языков живой аудитории.

Этап 1: Речь в текст — фиксация сказанного

Как работает потоковое STT

Конвейер запускается в тот момент, когда говорящий открывает рот. Браузер захватывает звук с микрофона и отправляет его через WebRTC — тот же протокол, который используется для видеозвонков — на LiveKit SFU (Selective Forwarding Unit). SFU маршрутизирует аудиодорожку к агенту перевода, работающему на сервере.

Агент не дожидается полного предложения. Вместо этого он передаёт звук небольшими блоками в Deepgram Nova-3, нейросетевую модель распознавания речи. Deepgram возвращает частичные расшифровки, которые уточняются по мере поступления нового звука. Предложение вроде «доброе утро всем и добро пожаловать на конференцию» может поступить тремя частичными результатами: «доброе утро», затем «доброе утро всем и», и наконец полное предложение. Каждое уточнение обновляет последующий перевод почти в реальном времени.

Именно потоковый подход обеспечивает низкую задержку. Система не буферизует целое высказывание перед обработкой — она начинает работу в течение десятков миллисекунд после получения звука. К моменту, когда говорящий заканчивает предложение, конвейер перевода уже значительно продвинулся.

Определение языка говорящего

Deepgram Nova-3 поддерживает 49 языковых кодов говорящего — варианты «язык-регион», такие как американский английский (en-US), бразильский португальский (pt-BR) и упрощённый китайский (zh-CN). Говорящий выбирает свой язык при начале сеанса. Это важно, поскольку точное распознавание речи требует знания входного языка. Модели «автоопределения» существуют, но они добавляют задержку и снижают точность для редких языковых пар — неприемлемый компромисс в режиме реального времени.

Практические советы по обеспечению максимально чистого звука на входе конвейера — выбор микрофона, его расположение и акустика помещения — см. в нашем руководстве по выбору подходящего микрофона.

Этап 2: Машинный перевод — передача смысла между языками

Переводческий движок

Как только этап «речь в текст» выдаёт расшифровку, она передаётся в машинный перевод. Движок зависит от тарифного плана говорящего:

Бесплатный план: Google Cloud NMT (Neural Machine Translation) — быстрый и надёжный для основных языковых пар. NMT — проверенная в продакшене модель, обученная на миллиардах параллельных предложений, которая выполняет прямые переводы с низкой задержкой.
Платные планы (Starter, Pro, Max): DualModelTranslator — использует Google Cloud Translation LLM примерно для 100 языков, где большие языковые модели дают более естественные и контекстуально осознанные результаты, с откатом на NMT для остальных пар. Преимущество LLM реально: он лучше справляется с идиомами, сменой регистра, специализированной терминологией и дальним контекстом, чем статистические подходы. Для более простых пар — например, с испанского на португальский — NMT быстрее и столь же точен, поэтому система маршрутизирует соответствующим образом.

Поддержка 225 языков вывода

Система поддерживает 225 языков вывода, разделённых на два уровня:

51 язык получает полный звук. Переведённый текст синтезируется в речь через Google Cloud TTS и доставляется как живой аудиопоток.
174 дополнительных языка получают живые текстовые субтитры. Перевод является настоящим переводом — не транскрипцией — но доставляется в виде прокручивающегося текста вместо звука.

Языки активируются по требованию. Когда слушатель присоединяется к сеансу и выбирает свой язык, конвейер создаёт поток перевода для конкретной пары «исходный-целевой». Если никто не выбирает финский, перевод на финский не генерируется — и языко-часы не расходуются. Полный список поддерживаемых языков с покрытием звука и субтитров доступен по ссылке.

Задержка на этапе перевода

Машинный перевод — самый быстрый этап конвейера:

NMT: обычно 50–150 мс на фрагмент предложения
LLM: обычно 100–300 мс на фрагмент — более высокое качество для сложного текста, незначительно медленнее

Поскольку потоковая архитектура передаёт частичные расшифровки в перевод по мере их поступления, система не ждёт полного предложения перед началом перевода. Частичные результаты уточняются по мере поступления дополнительного контекста, что означает, что слушатель получает непрерывный поток переведённого контента, а не серию отдельных пакетов.

Этап 3: Текст в речь — придание голоса переводу

Как работает синтез TTS

Для 51 звукового языка переведённый текст передаётся в Google Cloud TTS. Модель генерирует естественно звучащую звуковую волну на целевом языке. Каждый язык имеет собственную голосовую модель, настроенную на фонологию этого языка — ритм, интонацию и согласные-гласные паттерны, делающие речь естественной, а не роботизированной.

Синтезированный звук публикуется как новая аудиодорожка на LiveKit SFU. Каждый язык получает собственную дорожку, независимую от остальных.

Доставка звука слушателям

Механизм доставки — WebRTC, тот же протокол, что используется для видеозвонков, оптимизированный для медиа реального времени с низкой задержкой. Каждый слушатель подписывается на аудиодорожку, соответствующую выбранному языку. Никакого микширования, никакого переключения — слушатель слышит один непрерывный поток на своём языке от начала до конца.

Слушатели могут присоединиться с телефона, планшета или ноутбука. Полный опыт аудитории — как слушатель сканирует QR-код, выбирает язык и подключается — описан в статье как работает перевод через QR-код.

Полный конвейер в цифрах

Этап конвейера	Технология	Задержка	Стоимость за языко-час
Речь в текст	Deepgram Nova-3 (потоковый)	200–400 мс	~$0.46
Перевод	Google Cloud NMT / Translation LLM	50–300 мс	~$0.02–0.08
Текст в речь	Google Cloud TTS	100–200 мс	~$0.79
Доставка звука	WebRTC через LiveKit SFU	<100 мс	$0 (self-hosted)
Сквозная		350 мс–1 с	~$1.27–$1.33

Где накапливается задержка

Сквозная задержка имеет три источника:

Сетевой вход — время прохождения звука от браузера говорящего через LiveKit SFU до агента перевода. Зависит от интернет-соединения говорящего, но обычно составляет менее 100 мс при стабильном соединении.
Обработка — STT + перевод + TTS. Это основная часть задержки: примерно 350–900 мс в зависимости от языковой пары и от того, использует ли система перевод NMT или LLM.
Сетевой выход — время прохождения переведённой аудиодорожки от SFU до устройства каждого слушателя. Также обычно менее 100 мс.

Общая сквозная задержка для звуковых языков обычно находится в диапазоне от 0,5 до 1,0 секунды. Языки с текстовыми субтитрами полностью пропускают этап TTS, поэтому они поступают быстрее — но без синтезированного звука. Для более глубокого сравнения перевода на основе ИИ с традиционным человеческим синхронным переводом см. перевод в реальном времени vs синхронный перевод.

Почему это важно для организаторов мероприятий

Субсекундная задержка означает, что слушатели могут следить за выступлением естественно. Им не приходится неловко ждать, пока перевод догонит — они слышат переведённую версию достаточно близко к оригиналу, чтобы сохранить ритм выступления. На практике большинство аудиторий отмечают, что постоянная задержка в 0,5–1,0 секунды воспринимается как естественная пауза, а не как технический лаг.

225 языков означают, что ни один участник не исключён. Обслуживает ли мероприятие десяток языков или двести, один и тот же конвейер обрабатывает их все без дополнительного оборудования, персонала или времени на настройку.

Конвейер работает непрерывно часами без усталости — в отличие от переводчиков-людей, которые сменяются каждые 20 минут для поддержания точности. Четырёхчасовая конференция с переводом на восемь языков прогоняет один и тот же конвейер от начала до конца с неизменным качеством.

Стоимость определяется языковыми дорожками, а не размером аудитории. Будь то 5 или 350 человек, слушающих на французском, стоимость составляет один языко-час за час. Полный разбор модели биллинга см. в статье о модели ценообразования по языко-часам.

Итог

Перевод речи в реальном времени — это трёхэтапный конвейер: распознать, перевести, синтезировать — преобразующий голос одного говорящего в языки сотен слушателей менее чем за секунду. Каждый этап представляет собой проверенную в продакшене модель ИИ: Deepgram для распознавания речи, Google Cloud для перевода и синтеза речи, WebRTC для доставки. Компоненты не являются экспериментальными. Они работают в масштабе в продакшен-средах каждый день.

Технология достаточно зрелая для конференций, общественных собраний, классов и трансляций. Это не лабораторный эксперимент — она работает на мероприятиях уже сегодня, предоставляя 225 языков с субсекундной задержкой по цене примерно $1.30 за языко-час.

Хотите увидеть перевод речи в реальном времени в действии? Начните бесплатный сеанс — говорите на любом из 49 языков, ваша аудитория слышит на 225. Без настройки, без кредитной карты.