Как работает перевод речи в реальном времени — от микрофона к 225 языкам
Перевод речи в реальном времени преобразует голос говорящего в переведённый звук на 225 языках через конвейер распознавания речи, машинного перевода и синтеза речи. Вот как работает каждый этап.
Перевод речи в реальном времени кажется магией: один человек говорит, и мгновения спустя сотни слушателей слышат те же слова на своём языке. За этим опытом стоит программный конвейер, последовательно запускающий три модели ИИ и проходящий путь от произнесённого слова до переведённого звука менее чем за секунду.
Эта статья последовательно рассматривает каждый этап конвейера — распознавание речи, машинный перевод и синтез речи — и объясняет, как они объединяются для доставки 225 языков живой аудитории.
Этап 1: Речь в текст — фиксация сказанного
Как работает потоковое STT
Конвейер запускается в тот момент, когда говорящий открывает рот. Браузер захватывает звук с микрофона и отправляет его через WebRTC — тот же протокол, который используется для видеозвонков — на LiveKit SFU (Selective Forwarding Unit). SFU маршрутизирует аудиодорожку к агенту перевода, работающему на сервере.
Агент не дожидается полного предложения. Вместо этого он передаёт звук небольшими блоками в Deepgram Nova-3, нейросетевую модель распознавания речи. Deepgram возвращает частичные расшифровки, которые уточняются по мере поступления нового звука. Предложение вроде «доброе утро всем и добро пожаловать на конференцию» может поступить тремя частичными результатами: «доброе утро», затем «доброе утро всем и», и наконец полное предложение. Каждое уточнение обновляет последующий перевод почти в реальном времени.
Именно потоковый подход обеспечивает низкую задержку. Система не буферизует целое высказывание перед обработкой — она начинает работу в течение десятков миллисекунд после получения звука. К моменту, когда говорящий заканчивает предложение, конвейер перевода уже значительно продвинулся.
Определение языка говорящего
Deepgram Nova-3 поддерживает 49 языковых кодов говорящего — варианты «язык-регион», такие как американский английский (en-US), бразильский португальский (pt-BR) и упрощённый китайский (zh-CN). Говорящий выбирает свой язык при начале сеанса. Это важно, поскольку точное распознавание речи требует знания входного языка. Модели «автоопределения» существуют, но они добавляют задержку и снижают точность для редких языковых пар — неприемлемый компромисс в режиме реального времени.
Практические советы по обеспечению максимально чистого звука на входе конвейера — выбор микрофона, его расположение и акустика помещения — см. в нашем руководстве по выбору подходящего микрофона.
Этап 2: Машинный перевод — передача смысла между языками
Переводческий движок
Как только этап «речь в текст» выдаёт расшифровку, она передаётся в машинный перевод. Движок зависит от тарифного плана говорящего:
- Бесплатный план: Google Cloud NMT (Neural Machine Translation) — быстрый и надёжный для основных языковых пар. NMT — проверенная в продакшене модель, обученная на миллиардах параллельных предложений, которая выполняет прямые переводы с низкой задержкой.
- Платные планы (Starter, Pro, Max): DualModelTranslator — использует Google Cloud Translation LLM примерно для 100 языков, где большие языковые модели дают более естественные и контекстуально осознанные результаты, с откатом на NMT для остальных пар. Преимущество LLM реально: он лучше справляется с идиомами, сменой регистра, специализированной терминологией и дальним контекстом, чем статистические подходы. Для более простых пар — например, с испанского на португальский — NMT быстрее и столь же точен, поэтому система маршрутизирует соответствующим образом.
Поддержка 225 языков вывода
Система поддерживает 225 языков вывода, разделённых на два уровня:
- 51 язык получает полный звук. Переведённый текст синтезируется в речь через Google Cloud TTS и доставляется как живой аудиопоток.
- 174 дополнительных языка получают живые текстовые субтитры. Перевод является настоящим переводом — не транскрипцией — но доставляется в виде прокручивающегося текста вместо звука.
Языки активируются по требованию. Когда слушатель присоединяется к сеансу и выбирает свой язык, конвейер создаёт поток перевода для конкретной пары «исходный-целевой». Если никто не выбирает финский, перевод на финский не генерируется — и языко-часы не расходуются. Полный список поддерживаемых языков с покрытием звука и субтитров доступен по ссылке.
Задержка на этапе перевода
Машинный перевод — самый быстрый этап конвейера:
- NMT: обычно 50–150 мс на фрагмент предложения
- LLM: обычно 100–300 мс на фрагмент — более высокое качество для сложного текста, незначительно медленнее
Поскольку потоковая архитектура передаёт частичные расшифровки в перевод по мере их поступления, система не ждёт полного предложения перед началом перевода. Частичные результаты уточняются по мере поступления дополнительного контекста, что означает, что слушатель получает непрерывный поток переведённого контента, а не серию отдельных пакетов.
Этап 3: Текст в речь — придание голоса переводу
Как работает синтез TTS
Для 51 звукового языка переведённый текст передаётся в Google Cloud TTS. Модель генерирует естественно звучащую звуковую волну на целевом языке. Каждый язык имеет собственную голосовую модель, настроенную на фонологию этого языка — ритм, интонацию и согласные-гласные паттерны, делающие речь естественной, а не роботизированной.
Синтезированный звук публикуется как новая аудиодорожка на LiveKit SFU. Каждый язык получает собственную дорожку, независимую от остальных.
Доставка звука слушателям
Механизм доставки — WebRTC, тот же протокол, что используется для видеозвонков, оптимизированный для медиа реального времени с низкой задержкой. Каждый слушатель подписывается на аудиодорожку, соответствующую выбранному языку. Никакого микширования, никакого переключения — слушатель слышит один непрерывный поток на своём языке от начала до конца.
Слушатели могут присоединиться с телефона, планшета или ноутбука. Полный опыт аудитории — как слушатель сканирует QR-код, выбирает язык и подключается — описан в статье как работает перевод через QR-код.
Полный конвейер в цифрах
| Этап конвейера | Технология | Задержка | Стоимость за языко-час |
|---|---|---|---|
| Речь в текст | Deepgram Nova-3 (потоковый) | 200–400 мс | ~$0.46 |
| Перевод | Google Cloud NMT / Translation LLM | 50–300 мс | ~$0.02–0.08 |
| Текст в речь | Google Cloud TTS | 100–200 мс | ~$0.79 |
| Доставка звука | WebRTC через LiveKit SFU | <100 мс | $0 (self-hosted) |
| Сквозная | 350 мс–1 с | ~$1.27–$1.33 |
Где накапливается задержка
Сквозная задержка имеет три источника:
- Сетевой вход — время прохождения звука от браузера говорящего через LiveKit SFU до агента перевода. Зависит от интернет-соединения говорящего, но обычно составляет менее 100 мс при стабильном соединении.
- Обработка — STT + перевод + TTS. Это основная часть задержки: примерно 350–900 мс в зависимости от языковой пары и от того, использует ли система перевод NMT или LLM.
- Сетевой выход — время прохождения переведённой аудиодорожки от SFU до устройства каждого слушателя. Также обычно менее 100 мс.
Общая сквозная задержка для звуковых языков обычно находится в диапазоне от 0,5 до 1,0 секунды. Языки с текстовыми субтитрами полностью пропускают этап TTS, поэтому они поступают быстрее — но без синтезированного звука. Для более глубокого сравнения перевода на основе ИИ с традиционным человеческим синхронным переводом см. перевод в реальном времени vs синхронный перевод.
Почему это важно для организаторов мероприятий
Субсекундная задержка означает, что слушатели могут следить за выступлением естественно. Им не приходится неловко ждать, пока перевод догонит — они слышат переведённую версию достаточно близко к оригиналу, чтобы сохранить ритм выступления. На практике большинство аудиторий отмечают, что постоянная задержка в 0,5–1,0 секунды воспринимается как естественная пауза, а не как технический лаг.
225 языков означают, что ни один участник не исключён. Обслуживает ли мероприятие десяток языков или двести, один и тот же конвейер обрабатывает их все без дополнительного оборудования, персонала или времени на настройку.
Конвейер работает непрерывно часами без усталости — в отличие от переводчиков-людей, которые сменяются каждые 20 минут для поддержания точности. Четырёхчасовая конференция с переводом на восемь языков прогоняет один и тот же конвейер от начала до конца с неизменным качеством.
Стоимость определяется языковыми дорожками, а не размером аудитории. Будь то 5 или 350 человек, слушающих на французском, стоимость составляет один языко-час за час. Полный разбор модели биллинга см. в статье о модели ценообразования по языко-часам.
Итог
Перевод речи в реальном времени — это трёхэтапный конвейер: распознать, перевести, синтезировать — преобразующий голос одного говорящего в языки сотен слушателей менее чем за секунду. Каждый этап представляет собой проверенную в продакшене модель ИИ: Deepgram для распознавания речи, Google Cloud для перевода и синтеза речи, WebRTC для доставки. Компоненты не являются экспериментальными. Они работают в масштабе в продакшен-средах каждый день.
Технология достаточно зрелая для конференций, общественных собраний, классов и трансляций. Это не лабораторный эксперимент — она работает на мероприятиях уже сегодня, предоставляя 225 языков с субсекундной задержкой по цене примерно $1.30 за языко-час.
Хотите увидеть перевод речи в реальном времени в действии? Начните бесплатный сеанс — говорите на любом из 49 языков, ваша аудитория слышит на 225. Без настройки, без кредитной карты.