Explainer

실시간 음성 번역의 작동 원리 — 마이크부터 225개 언어까지

실시간 음성 번역은 음성 인식, 기계 번역, 음성 합성의 파이프라인을 통해 화자의 목소리를 225개 언어의 번역 오디오로 변환합니다. 각 단계가 어떻게 작동하는지 설명합니다.

최종 업데이트 · 2026년 5월 27일 9분 읽기

실시간 음성 번역은 마법처럼 보인다: 한 사람이 말하고, 몇 순간 뒤 수백 명의 청취자가 자신의 언어로 같은 말을 듣는다. 그 경험 뒤에는 세 개의 AI 모델을 순차적으로 실행하는 소프트웨어 파이프라인이 있으며, 음성에서 번역 오디오까지의 여정을 1초 미만으로 완료한다.

이 글은 해당 파이프라인의 각 단계 — 음성 인식, 기계 번역, 음성 합성 — 를 살펴보고, 이들이 어떻게 결합하여 225개 언어를 라이브 청중에게 전달하는지 설명한다.

1단계: 음성을 텍스트로 — 화자의 발화를 포착하다

스트리밍 STT의 작동 방식

파이프라인은 화자가 입을 여는 순간 시작된다. 브라우저가 마이크에서 오디오를 캡처하여 WebRTC — 영상 통화에 사용되는 것과 동일한 프로토콜 — 를 통해 LiveKit SFU(Selective Forwarding Unit)로 전송한다. SFU는 오디오 트랙을 서버에서 실행 중인 번역 에이전트로 라우팅한다.

에이전트는 완전한 문장이 될 때까지 기다리지 않는다. 대신, 오디오를 작은 청크 단위로 Deepgram Nova-3에 스트리밍한다. Deepgram Nova-3은 신경망 음성 인식 모델이다. Deepgram은 부분 전사 결과를 반환하며, 더 많은 오디오가 도착할수록 결과가 정제된다. “여러분 좋은 아침입니다. 회의에 오신 것을 환영합니다”라는 문장은 세 개의 부분 결과로 도착할 수 있다: 먼저 “여러분 좋은 아침입니다”, 그다음 “여러분 좋은 아침입니다. 회의에”, 마지막으로 완전한 문장. 각 정제는 다운스트림 번역을 거의 실시간으로 업데이트한다.

이 스트리밍 방식이 지연 시간을 낮게 유지하는 핵심이다. 시스템은 발화 전체를 버퍼링한 뒤 처리하는 것이 아니라 — 오디오를 수신한 후 수십 밀리초 이내에 처리를 시작한다. 화자가 문장을 마칠 때쯤이면 번역 파이프라인은 이미 상당 부분 진행되어 있다.

화자 언어 감지

Deepgram Nova-3은 49개의 화자 언어 코드를 지원한다 — 미국 영어(en-US), 브라질 포르투갈어(pt-BR), 간체 중국어(zh-CN)와 같은 언어-지역 변형이다. 화자는 세션을 시작할 때 자신의 언어를 선택한다. 이는 정확한 음성 인식이 입력 언어를 알아야 하기 때문에 중요하다. “자동 감지” 모델이 존재하지만, 희귀 언어 쌍에서는 지연 시간을 증가시키고 정확도를 낮춘다 — 라이브 환경에서는 받아들일 수 없는 트레이드오프다.

파이프라인에 가장 깨끗한 오디오를 공급하기 위한 실용적인 팁 — 마이크 선택, 배치, 실내 음향 — 은 올바른 마이크 선택하기 가이드를 참조하라.

2단계: 기계 번역 — 언어 간 의미 전환

번역 엔진

음성-텍스트 단계에서 전사본이 생성되면, 텍스트는 기계 번역으로 전달된다. 엔진은 화자의 플랜에 따라 다르다:

무료 플랜: Google Cloud NMT(Neural Machine Translation) — 주요 언어 쌍에 대해 빠르고 신뢰할 수 있다. NMT는 수십억 개의 병렬 문장으로 학습된 프로덕션 검증 모델이며, 간단한 번역을 낮은 지연 시간으로 처리한다.
유료 플랜(Starter, Pro, Max): DualModelTranslator — 대규모 언어 모델이 더 자연스럽고 문맥을 고려한 결과를 생성하는 약 100개 언어에 대해 Google Cloud Translation LLM을 사용하고, 나머지 쌍은 NMT로 대체한다. LLM의 이점은 실재한다: 관용구, 레지스터 변화, 전문 용어, 장거리 문맥을 통계적 접근 방식보다 더 잘 처리한다. 더 단순한 쌍 — 예를 들어 스페인어에서 포르투갈어 — 의 경우 NMT가 더 빠르고 정확도도 동일하므로 시스템은 그에 따라 라우팅한다.

225개 출력 언어 지원

시스템은 225개의 출력 언어를 지원하며, 두 가지 계층으로 나뉜다:

51개 언어는 전체 오디오를 수신한다. 번역된 텍스트는 Google Cloud TTS를 통해 음성으로 합성되어 라이브 오디오 스트림으로 전달된다.
174개 추가 언어는 라이브 텍스트 자막을 수신한다. 번역은 실제 번역 — 전사가 아닌 — 이지만 오디오 대신 스크롤되는 텍스트로 전달된다.

언어는 온디맨드로 활성화된다. 청취자가 세션에 참여하여 언어를 선택하면, 파이프라인은 해당 특정 소스-타겟 쌍에 대한 번역 스트림을 생성한다. 핀란드어를 선택하는 사람이 없으면 핀란드어 번역은 생성되지 않으며 — 언어 시간도 소비되지 않는다. 오디오 및 자막 지원 범위는 지원 언어 전체 목록을 참조하라.

번역 단계의 지연 시간

기계 번역은 파이프라인에서 가장 빠른 단계다:

NMT: 문장 조각당 일반적으로 50–150 ms
LLM: 조각당 일반적으로 100–300 ms — 복잡한 텍스트에 대해 더 높은 품질, 약간 더 느림

스트리밍 아키텍처가 부분 전사 결과를 도착하는 즉시 번역에 공급하므로, 시스템은 완전한 문장을 기다리지 않고 번역을 시작한다. 부분 결과는 더 많은 문맥이 가능해짐에 따라 정제되며, 이는 청취자가 개별적인 버스트의 연속이 아닌 지속적인 번역 콘텐츠 스트림을 수신함을 의미한다.

3단계: 텍스트를 음성으로 — 번역에 목소리를 부여하다

TTS 합성의 작동 방식

51개 오디오 언어에 대해, 번역된 텍스트는 Google Cloud TTS로 전달된다. 모델은 타겟 언어로 자연스럽게 들리는 오디오 파형을 생성한다. 각 언어는 해당 언어의 음운론에 맞게 조정된 고유한 음성 모델을 갖는다 — 리듬, 억양, 자음-모음 패턴이 음성을 기계적이 아닌 자연스럽게 만든다.

합성된 오디오는 LiveKit SFU에 새로운 오디오 트랙으로 게시된다. 각 언어는 다른 언어와 독립적인 자체 트랙을 갖는다.

청취자에게 오디오 전달

전달 메커니즘은 WebRTC이다 — 영상 통화에 사용되는 것과 동일한 프로토콜로, 저지연 실시간 미디어에 최적화되어 있다. 각 청취자는 선택한 언어에 해당하는 오디오 트랙을 구독한다. 믹싱도 없고 전환도 없다 — 청취자는 처음부터 끝까지 자신의 언어로 하나의 연속적인 스트림을 듣는다.

청취자는 스마트폰, 태블릿 또는 노트북에서 참여할 수 있다. 전체 청중 경험 — 청취자가 QR 코드를 스캔하고, 언어를 선택하고, 연결하는 방법 — 은 QR 코드 번역 작동 방식을 참조하라.

전체 파이프라인 수치 요약

파이프라인 단계	기술	지연 시간	언어 시간당 비용
음성 → 텍스트	Deepgram Nova-3(스트리밍)	200–400 ms	~$0.46
번역	Google Cloud NMT / Translation LLM	50–300 ms	~$0.02–0.08
텍스트 → 음성	Google Cloud TTS	100–200 ms	~$0.79
오디오 전달	WebRTC(LiveKit SFU 경유)	<100 ms	$0(셀프 호스팅)
종합		350 ms–1 s	~$1.27–$1.33

지연 시간이 누적되는 지점

종합 지연 시간에는 세 가지 원인이 있다:

네트워크 수신 — 오디오가 화자의 브라우저에서 LiveKit SFU를 거쳐 번역 에이전트까지 이동하는 시간. 화자의 인터넷 연결에 따라 다르지만, 안정적인 연결에서는 일반적으로 100 ms 미만이다.
처리 — STT + 번역 + TTS. 지연의 대부분을 차지한다: 언어 쌍과 시스템이 NMT 번역을 사용하는지 LLM 번역을 사용하는지에 따라 약 350–900 ms.
네트워크 송신 — 번역된 오디오 트랙이 SFU에서 각 청취자의 기기까지 이동하는 시간. 마찬가지로 일반적으로 100 ms 미만이다.

오디오 언어의 총 종합 지연 시간은 일반적으로 0.5~1.0초 사이다. 텍스트 자막 언어는 TTS 단계를 완전히 건너뛰므로 더 빨리 도착하지만 — 합성 오디오는 없다. AI 기반 번역과 전통적인 인간 동시통역의 심층 비교는 실시간 번역 vs 동시통역을 참조하라.

이벤트 주최자에게 중요한 이유

1초 미만의 지연 시간은 청취자가 자연스럽게 따라갈 수 있음을 의미한다. 번역이 따라잡기를 어색하게 기다릴 필요가 없다 — 번역본이 원본과 충분히 가깝게 들려 발표의 리듬이 유지된다. 실제로 대부분의 청중은 일관된 0.5~1.0초 지연이 기술적 지연이 아닌 자연스러운 쉼으로 느껴진다고 보고한다.

225개 언어는 어떤 청중도 소외되지 않음을 의미한다. 행사가 12개 언어를 서비스하든 200개 언어를 서비스하든, 동일한 파이프라인이 추가 하드웨어, 인력 또는 설정 시간 없이 모두 처리한다.

파이프라인은 피로 없이 몇 시간이든 연속으로 실행된다 — 정확도를 유지하기 위해 20분마다 교대하는 인간 통역사와 달리. 8개 언어로 번역되는 4시간 컨퍼런스는 시작부터 끝까지 동일한 파이프라인을 일관된 품질로 실행한다.

비용은 언어 트랙에 의해 결정되며, 청중 규모가 아니다. 프랑스어로 듣는 사람이 5명이든 350명이든 비용은 시간당 1 언어 시간이다. 과금 모델에 대한 전체 내역은 언어 시간 가격 모델을 참조하라.

요약

실시간 음성 번역은 인식, 번역, 합성의 3단계 파이프라인으로, 1초 미만에 한 화자의 목소리를 수백 명의 청취자 언어로 변환한다. 각 단계는 프로덕션 검증된 AI 모델이다: 음성 인식에 Deepgram, 번역과 음성 합성에 Google Cloud, 전달에 WebRTC. 이 구성 요소들은 실험적인 것이 아니다. 프로덕션 환경에서 매일 대규모로 실행되고 있다.

이 기술은 컨퍼런스, 타운홀, 교실, 방송에 충분히 성숙했다. 실험실 실험이 아니다 — 오늘날 행사에서 실행되고 있으며, 언어 시간당 약 $1.30의 비용으로 서브초 지연의 225개 언어를 제공한다.

실시간 음성 번역을 직접 경험해 보고 싶은가? 무료 세션을 시작하세요 — 49개 언어 중 하나로 말하면, 청중이 225개 언어로 듣습니다. 설정 불필요, 신용카드 불필요.