ライブキャプションを放送に埋め込む
Loquiraの翻訳出力を使用して、翻訳されたキャプションを放送グラフィックスパイプラインに取り込む方法。
放送事業者はクリーンで翻訳されたキャプションを求めています。それらは、ローワーサードやティッカーを扱うのと同じグラフィックスパイプラインに届けられる必要があります。このガイドでは、Loquiraの翻訳パイプラインの遅延特性と、その出力を現在どのように扱うかを説明します。
レイテンシーバジェット
放送事業者は厳格なタイミング制約の下で運用しています。すべてのフレームにはスケジュールされた位置があります。Loquiraのエンドツーエンドのレイテンシーを理解することで、放送スタック内でのキャプション配置を計画することができます。
| ステージ | レイテンシー |
|---|---|
| 音声認識(Deepgram Nova-3) | ~300 ms |
| 翻訳(Gemini) | ~250 ms |
| 音声合成 | ~200 ms |
| エンドツーエンド合計 | ~750 ms |
これは、ほとんどの放送事業者がライブイベントのために維持する遅延バッファー(通常、法的レビューと不適切な発言の遅延のために3〜10秒)の範囲内です。ニュース報道、プレスカンファレンス、ライブイベント放送では、リアルタイム放送が現実的です。
現在の翻訳出力の扱い方
Loquiraのリスナービューは、翻訳テキストと音声をリアルタイムで表示します。放送統合のために、現在2つのアプローチが利用可能です:
セッション後のキャプションオーバーレイ。 セッション終了後、文字起こしをSRTまたはWebVTT形式でエクスポートします。ファイルを編集プラットフォームや再生システムにインポートして、録画された放送にキャプションを焼き付けます。これが最も信頼性の高い方法で、どのグラフィックスパイプラインでも機能します。
リスナービューを参照として使用。 専用デバイスでLoquiraの聴衆ビューを開き、オフスクリーンに配置します。キャプションオペレーターが翻訳テキストを監視し、グラフィックスシステムに手動でキャプションを入力します。人的遅延が発生しますが、タイミングと表示の完全な編集制御が可能です。
放送グラフィックスシステム(OBS、vMix、CasparCG)への直接のキャプションフィード統合は、製品ロードマップに含まれています。
計画すべき障害モード
- プレゼンターデバイスのネットワーク損失。 翻訳は即座に停止します。フォールバック用のグラフィック(「ライブ翻訳は一時的に利用できません」)を用意してください。
- 音声ソースのドロップアウト。 認識器は無音に対してキャプションを生成しません。オンエアの出演者には、待つのではなく話し続けるよう指示してください。
- 放送中の言語切り替え。 可能ですが、翻訳パイプラインの再ウォームアップ中に1〜2秒のギャップが発生します。セグメント間でのみ切り替えてください。