广播机构需要字幕——干净、翻译好的字幕,并能接入处理底三分之一条和滚动条的同一图形管线。本指南涵盖Loquira翻译管线的延迟特性,以及如何利用其当前输出。
延迟预算
广播机构在严格的时间限制下运作。每一帧都有预定的播放位置。了解Loquira的端到端延迟有助于规划字幕在广播堆栈中的放置位置。
| 阶段 | 延迟 |
|---|---|
| 语音识别(Deepgram Nova-3) | ~300毫秒 |
| 翻译(Gemini) | ~250毫秒 |
| 文本转语音合成 | ~200毫秒 |
| 总端到端延迟 | ~750毫秒 |
这完全在大多数广播机构为直播活动维护的延迟缓冲区范围内(通常为3-10秒,用于法律审核和脏话延迟)。对于新闻报道、新闻发布会和直播活动广播来说,实时播出是可行的。
使用翻译输出的当前方式
Loquira的听众视图实时显示翻译后的文字和音频。对于广播集成,目前有两种可用方法:
会后字幕叠加。 会话结束后,以SRT或WebVTT格式导出转录。将文件导入您的编辑或播出系统,将字幕嵌入录制的广播内容中。这是最可靠的方法,适用于任何图形管线。
将听众视图作为参考。 在专用设备上打开Loquira观众视图,并放置在画面外。字幕操作员观看翻译文字,并手动将字幕输入图形系统。这会引入人工延迟,但可以对时间和可见性进行完全编辑控制。
直接字幕馈送集成到广播图形系统(OBS、vMix、CasparCG)已列入产品路线图。
需要规划的故障模式
- 演示者设备网络中断。 翻译立即停止。请准备一个备用图形(“实时翻译暂时不可用”)。
- 源端音频中断。 识别器不会为静音生成字幕。请告知镜头前的演讲者继续说话而非等待。
- 广播中切换语言。 可以做到——但会在翻译管道重新预热时产生1-2秒的间隔。仅在段落之间切换。