リアルタイム音声翻訳の仕組み — マイクから 225 言語まで
リアルタイム音声翻訳は、音声認識、機械翻訳、音声合成のパイプラインを通じて、話者の声を 225 言語の翻訳音声に変換します。各ステージの仕組みを解説します。
リアルタイム音声翻訳はまるで魔法のようだ:一人が話し、数瞬の後に数百人の聴衆が自分の言語で同じ言葉を聞く。その体験の背後にあるのは、3つの AI モデルを順次実行するソフトウェアパイプラインであり、発話から翻訳音声までの道のりを 1 秒未満で完了する。
本記事では、そのパイプラインの各ステージ — 音声認識、機械翻訳、音声合成 — を順に説明し、それらがどのように組み合わさって 225 言語をライブの聴衆に届けるのかを解説する。
ステージ 1:音声からテキストへ — 話者の発言を捉える
ストリーミング STT の仕組み
パイプラインは話者が口を開いた瞬間に始まる。ブラウザがマイクから音声をキャプチャし、WebRTC — ビデオ通話で使われるのと同じプロトコル — 経由で LiveKit SFU(Selective Forwarding Unit)に送信する。SFU は音声トラックを、サーバー上で動作する翻訳エージェントにルーティングする。
エージェントは完全な文が完成するのを待たない。代わりに、音声を小さなチャンクとして Deepgram Nova-3 にストリーミングする。Deepgram Nova-3 はニューラル音声認識モデルである。Deepgram は部分転写結果を返し、より多くの音声が到着するにつれて精度が向上する。「皆様おはようございます。本日の会議へようこそ」という文は、3つの部分結果として届くかもしれない:まず「皆様おはようございます」、次に「皆様おはようございます。本日の」、そして完全な文。各精製は、下流の翻訳をほぼリアルタイムで更新する。
このストリーミングアプローチが遅延を低く保つ鍵である。システムは発話全体をバッファしてから処理するのではなく — 音声を受信してから数十ミリ秒以内に処理を開始する。話者が文を終える頃には、翻訳パイプラインはすでにかなり進んでいる。
話者言語の検出
Deepgram Nova-3 は 49 の話者言語コードをサポートしている — アメリカ英語(en-US)、ブラジルポルトガル語(pt-BR)、簡体字中国語(zh-CN)などの言語・地域バリアントである。話者はセッション開始時に自分の言語を選択する。これが重要なのは、正確な音声認識には入力言語を知る必要があるためだ。「自動検出」モデルは存在するが、レアな言語ペアでは遅延が増し精度が低下する — ライブ環境では許容できないトレードオフだ。
パイプラインに最もクリーンな音声を送るための実践的なヒント — マイクの選び方、配置、部屋の音響 — については、適切なマイクの選び方のガイドを参照してほしい。
ステージ 2:機械翻訳 — 言語間で意味を変換する
翻訳エンジン
音声からテキストへのステージが転写を生成すると、テキストは機械翻訳に渡される。エンジンは話者のプランに依存する:
- 無料プラン: Google Cloud NMT(Neural Machine Translation)— 主要な言語ペアにおいて高速かつ信頼性が高い。NMT は数十億の並行文で訓練された本番運用済みのモデルであり、直接的な翻訳を低遅延で処理する。
- 有料プラン(Starter、Pro、Max): DualModelTranslator — 大規模言語モデルがより自然で文脈を考慮した出力を生成する約 100 言語には Google Cloud Translation LLM を使用し、残りのペアには NMT にフォールバックする。LLM の利点は実在する:イディオム、レジスターの変化、専門用語、長距離の文脈を統計的手法よりもうまく処理する。よりシンプルなペア — 例えばスペイン語からポルトガル語 — では NMT の方が速く精度も同等であるため、システムは適切にルーティングする。
225 の出力言語のサポート
システムは 225 の出力言語をサポートし、2 つの階層に分かれている:
- 51 言語が完全な音声を受け取る。 翻訳されたテキストは Google Cloud TTS によって音声に合成され、ライブ音声ストリームとして配信される。
- 174 の追加言語がライブテキスト字幕を受け取る。 翻訳は本物であり、転写ではなく翻訳されたものだが、音声ではなくスクロールするテキストとして配信される。
言語はオンデマンドで有効化される。リスナーがセッションに参加し、言語を選ぶと、パイプラインはその特定のソース・ターゲットペアの翻訳ストリームを作成する。誰もフィンランド語を選択しなければ、フィンランド語の翻訳は生成されない — その分の言語時間も消費されない。音声および字幕の対応状況については、サポート言語の完全なリストを参照してほしい。
翻訳ステップでの遅延
機械翻訳はパイプラインの中で最も速いステージである:
- NMT: 文の断片ごとに通常 50–150 ms
- LLM: 断片ごとに通常 100–300 ms — 複雑なテキストに対して高品質だが、わずかに遅い
ストリーミングアーキテクチャが部分転写結果を到着次第、翻訳に渡すため、システムは完全な文を待たずに翻訳を開始する。部分結果はより多くの文脈が利用可能になるにつれて精製され、リスナーは離散的なバーストの連続ではなく、絶え間ない翻訳コンテンツのストリームを受け取る。
ステージ 3:テキストから音声へ — 翻訳に声を与える
TTS 合成の仕組み
51 の音声言語について、翻訳されたテキストは Google Cloud TTS に渡される。モデルはターゲット言語で自然に聞こえる音声波形を生成する。各言語にはその言語の音韻論にチューニングされた専用の音声モデルがある — リズム、イントネーション、子音・母音のパターンが、音声を機械的ではなく自然に響かせる。
合成された音声は、LiveKit SFU 上の新しい音声トラックとして公開される。各言語は他の言語とは独立した独自のトラックを持つ。
リスナーへの音声配信
配信メカニズムは WebRTC である — ビデオ通話に使われるのと同じプロトコルで、低遅延のリアルタイムメディアに最適化されている。各リスナーは自分が選択した言語に対応する音声トラックをサブスクライブする。ミキシングも切り替えもない — リスナーは最初から最後まで自分の言語で途切れることのないストリームを聞く。
リスナーはスマートフォン、タブレット、ノート PC から参加できる。聴衆の完全な体験 — リスナーが QR コードをスキャンし、言語を選択し、接続する方法 — については、QR コード翻訳の仕組みを参照してほしい。
パイプライン全体の数値まとめ
| パイプラインステージ | 技術 | 遅延 | 言語時間あたりのコスト |
|---|---|---|---|
| 音声からテキスト | Deepgram Nova-3(ストリーミング) | 200–400 ms | ~$0.46 |
| 翻訳 | Google Cloud NMT / Translation LLM | 50–300 ms | ~$0.02–0.08 |
| テキストから音声 | Google Cloud TTS | 100–200 ms | ~$0.79 |
| 音声配信 | WebRTC(LiveKit SFU 経由) | <100 ms | $0(セルフホスト) |
| エンドツーエンド | 350 ms–1 s | ~$1.27–$1.33 |
遅延が蓄積する箇所
エンドツーエンドの遅延には 3 つの原因がある:
- ネットワーク上り — 音声が話者のブラウザから LiveKit SFU を経て翻訳エージェントに到達するまでの時間。これは話者のインターネット接続に依存するが、安定した接続では通常 100 ms 未満である。
- 処理 — STT + 翻訳 + TTS。遅延の大部分はここにある:言語ペアと、システムが NMT と LLM 翻訳のどちらを使用するかによって、約 350–900 ms。
- ネットワーク下り — 翻訳された音声トラックが SFU から各リスナーのデバイスに到達するまでの時間。これも通常 100 ms 未満である。
音声言語のエンドツーエンド総遅延は、通常 0.5〜1.0 秒の間に収まる。テキスト字幕の言語は TTS ステップを完全にスキップするため、より速く到達する — ただし合成音声はない。AI 駆動翻訳と従来の人間による同時通訳の詳細な比較については、リアルタイム翻訳 vs 同時通訳を参照してほしい。
イベント主催者にとっての意義
サブ秒の遅延は、リスナーが自然についていけることを意味する。翻訳が追いつくのを気まずく待つ必要はない — 翻訳版はオリジナルに十分近いタイミングで届き、トークのリズムが保たれる。実際、大多数の聴衆は、一貫した 0.5〜1.0 秒の遅延を技術的なラグではなく、自然な間隔として感じると報告している。
225 言語ということは、誰一人として聴衆から除外されないということだ。イベントが十数言語を対象とするにせよ二百言語を対象とするにせよ、同じパイプラインが追加のハードウェア、人員、セットアップ時間なしにすべてを処理する。
パイプラインは何時間でも疲労することなく連続動作する — 正確性を保つために 20 分ごとに交代する人間の通訳とは異なる。8 言語に翻訳される 4 時間のカンファレンスは、開始から終了まで同じパイプラインを一貫した品質で実行する。
コストは言語トラックによって決まり、聴衆の規模ではない。フランス語で聴くのが 5 人であれ 350 人であれ、コストは 1 時間につき 1 言語時間である。課金モデルの完全な内訳については、言語時間価格モデルを参照してほしい。
まとめ
リアルタイム音声翻訳は、認識・翻訳・合成の 3 ステージのパイプラインであり、1 秒未満で一人の話者の声を数百人のリスナーの言語に変換する。各ステージは本番環境で検証済みの AI モデルである:音声認識に Deepgram、翻訳と音声合成に Google Cloud、配信に WebRTC。これらのコンポーネントは実験的なものではない。本番環境で毎日スケールして稼働している。
この技術は、カンファレンス、タウンホールミーティング、教室、放送に十分な成熟度に達している。研究所の実験ではない — 今日のイベントで稼働しており、言語時間あたり約 $1.30 のコストで、サブ秒遅延の 225 言語を提供している。
リアルタイム音声翻訳を体験してみたいか?無料セッションを開始 — 49 言語のいずれかで話すと、聴衆は 225 言語で聞くことができる。設定不要、クレジットカード不要。