实时语音翻译的工作原理 — 从麦克风到 225 种语言
实时语音翻译通过语音识别、机器翻译和语音合成三个阶段的处理流水线,将说话人的声音转换为 225 种语言的翻译音频。以下是每个阶段的工作方式。
实时语音翻译看似不可思议:一个人说话,片刻之后数百名听众便能在各自的语言中听到相同的内容。支撑这一体验的是一个软件流水线,它按顺序运行三个 AI 模型,在不到一秒的时间内完成从语音到翻译音频的全过程。
本文将逐一介绍该流水线的每个阶段 — 语音识别、机器翻译和语音合成 — 并解释它们如何协同工作,向现场听众提供 225 种语言。
第一阶段:语音转文字 — 捕获说话人的内容
流式 STT 的工作原理
流水线在说话人开口的那一刻便启动了。浏览器从麦克风捕获音频,通过 WebRTC — 与视频通话使用的相同协议 — 发送到 LiveKit SFU(选择性转发单元)。SFU 将音频轨道路由到运行在服务器上的翻译代理。
翻译代理不会等待完整句子。相反,它以小块流式方式将音频发送给 Deepgram Nova-3,一个神经语音识别模型。Deepgram 返回部分转写结果,随着更多音频到达而不断修正。一句”大家早上好,欢迎来到会议”可能会以三个部分结果到达:首先是”大家早上好”,然后是”大家早上好,欢迎”,最后是完整句子。每次修正都会以接近实时的方式更新下游翻译。
这种流式处理方式是保持低延迟的关键。系统不会在采取行动之前缓冲整段话语 — 它在收到音频后的几十毫秒内就开始处理。当说话人讲完一句话时,翻译流水线已经完成了相当一部分工作。
说话人语言检测
Deepgram Nova-3 支持 49 种说话人语言代码 — 即语言-地区变体,如美式英语(en-US)、巴西葡萄牙语(pt-BR)和简体中文(zh-CN)。说话人在开始会话时选择自己的语言。这一点很重要,因为准确的语音识别需要知道输入语言。“自动检测”模型虽然存在,但会增加延迟并降低罕见语言对的准确性 — 在实时场景中,这是不可接受的权衡。
关于如何将最清晰的音频输入流水线的实用技巧 — 麦克风选择、摆放位置和房间声学 — 请参阅我们关于选择合适麦克风的指南。
第二阶段:机器翻译 — 跨语言转换含义
翻译引擎
当语音转文字阶段生成转写文本后,文本便进入机器翻译环节。引擎取决于说话人的订阅计划:
- 免费计划: Google Cloud NMT(神经机器翻译)— 对于主要语言对来说快速且可靠。NMT 是一个经过生产验证的模型,在海量平行句对上训练,能够以低延迟处理直接翻译。
- 付费计划(Starter、Pro、Max): DualModelTranslator — 对大约 100 种语言使用 Google Cloud Translation LLM,大语言模型能产生更自然、更符合语境的输出,其余语言对则回退到 NMT。LLM 的优势是切实的:它比统计方法更好地处理习语、语体转换、专业术语和长距离上下文。对于更简单的语言对 — 例如西班牙语到葡萄牙语 — NMT 更快且同样准确,因此系统会相应地选择路由。
支持 225 种输出语言
系统支持 225 种输出语言,分为两个层级:
- 51 种语言获得完整音频。 翻译后的文本通过 Google Cloud TTS 合成为语音,并以实时音频流的方式传输。
- 174 种附加语言获得实时文字字幕。 翻译是真正的翻译 — 而非转写 — 但以滚动文字而非音频的方式呈现。
语言按需激活。当听众加入会话并选择自己的语言时,流水线会为该特定的源语言-目标语言对创建翻译流。如果没有人选择芬兰语,就不会生成芬兰语翻译 — 也不会消耗相应的语言小时数。请参阅支持的语言完整列表,了解音频和字幕覆盖范围。
翻译步骤中的延迟
机器翻译是流水线中最快的阶段:
- NMT: 每个句子片段通常为 50–150 ms
- LLM: 每个片段通常为 100–300 ms — 对复杂文本质量更高,延迟略有增加
由于流式架构在部分转写结果到达时即传递给翻译,系统无需等待完整句子再开始翻译。部分结果会随着更多上下文的到来而不断修正,这意味着听众收到的是源源不断的翻译内容流,而非一系列零散的片段。
第三阶段:文字转语音 — 为翻译赋予声音
TTS 合成的工作原理
对于 51 种音频语言,翻译后的文本传递给 Google Cloud TTS。模型在目标语言中生成听起来自然的音频波形。每种语言都有针对该语言音系学定制的语音模型 — 节奏、语调以及辅音-元音模式使语音听起来自然而非机械。
合成后的音频作为新的音频轨道发布到 LiveKit SFU 上。每种语言获得独立的轨道,互不干扰。
音频传输给听众
传输机制是 WebRTC — 与视频通话使用的相同协议,针对低延迟实时媒体进行了优化。每位听众订阅与其所选语言对应的音频轨道。无需混音,无需切换 — 听众从头到尾收听到一条连续的母语流。
听众可以通过手机、平板或笔记本电脑加入。完整的受众体验 — 听众如何扫描二维码、选择语言并建立连接 — 请参阅二维码翻译的工作原理。
完整流水线的数据概览
| 流水线阶段 | 技术 | 延迟 | 每语言小时成本 |
|---|---|---|---|
| 语音转文字 | Deepgram Nova-3(流式) | 200–400 ms | ~$0.46 |
| 翻译 | Google Cloud NMT / Translation LLM | 50–300 ms | ~$0.02–0.08 |
| 文字转语音 | Google Cloud TTS | 100–200 ms | ~$0.79 |
| 音频传输 | WebRTC 通过 LiveKit SFU | <100 ms | $0(自托管) |
| 端到端 | 350 ms–1 s | ~$1.27–$1.33 |
延迟从何累积
端到端延迟有三个来源:
- 网络入口 — 音频从说话人的浏览器出发,经过 LiveKit SFU,到达翻译代理所需的时间。这取决于说话人的网络连接,但在稳定连接下通常在 100 ms 以内。
- 处理 — STT + 翻译 + TTS。这是延迟的主要部分:大约 350–900 ms,具体取决于语言对以及系统使用的是 NMT 还是 LLM 翻译。
- 网络出口 — 翻译后的音频轨道从 SFU 传输到每位听众设备所需的时间。同样通常在 100 ms 以内。
音频语言的端到端总延迟通常在 0.5 到 1.0 秒之间。文字字幕语言完全跳过 TTS 步骤,因此到达更快 — 但没有合成音频。关于 AI 驱动翻译与传统人工同声传译的深入比较,请参阅实时翻译与同声传译的对比。
为什么这对活动组织者很重要
亚秒级延迟意味着听众可以自然地跟进。他们不必尴尬地等待翻译追赶 — 他们听到的翻译版本与原始内容足够接近,讲话的节奏得以保持。在实践中,大多数听众表示,持续的 0.5–1.0 秒延迟感觉像是自然的停顿,而非技术性滞后。
225 种语言意味着没有听众被排除在外。无论活动需要服务十几种语言还是两百种,同一条流水线就能处理所有语言,无需额外的硬件、人员或准备时间。
流水线可以连续运行数小时而不会疲倦 — 不像人工译员需要每 20 分钟轮换一次以保持准确性。一场翻译成八种语言的四小时会议,从头到尾运行同一条流水线,全程保持一致的质量。
成本由语言轨道驱动,而非受众规模。无论有 5 人还是 350 人收听法语,成本都是每小时一个语言小时。关于计费模型的完整解析,请参阅语言小时计费模型。
总结
实时语音翻译是一个三阶段流水线 — 识别、翻译、合成 — 在不到一秒的时间内将说话人的声音转换为数百名听众各自语言的翻译。每个阶段都是经过生产验证的 AI 模型:Deepgram 负责语音识别,Google Cloud 负责翻译和语音合成,WebRTC 负责传输。这些组件并非实验性的。它们每天都在生产环境中大规模运行。
这项技术已足够成熟,适用于会议、市政厅会议、课堂和广播。这不是实验室实验 — 它已经在今天的活动中运行,以大约 $1.30 每语言小时的成本提供亚秒级延迟的 225 种语言服务。
想亲眼见证实时语音翻译的实际效果?开始一次免费会话 — 用 49 种语言中的任意一种讲话,您的听众将以 225 种语言收听。无需设置,无需信用卡。