Explainer

Dịch giọng nói thời gian thực hoạt động như thế nào — từ micro đến 225 ngôn ngữ

Dịch giọng nói thời gian thực chuyển đổi giọng của người nói thành âm thanh dịch ở 225 ngôn ngữ thông qua quy trình nhận dạng giọng nói, dịch máy và tổng hợp giọng nói. Dưới đây là cách mỗi giai đoạn hoạt động.

Cập nhật lần cuối · 27 tháng 5, 2026 9 phút đọc

Dịch giọng nói thời gian thực trông giống như phép thuật: một người nói, và chỉ thoáng chốc sau đó hàng trăm người nghe nghe cùng những từ ngữ bằng ngôn ngữ của họ. Đằng sau trải nghiệm đó là một pipeline phần mềm chạy ba mô hình AI theo tuần tự, hoàn thành hành trình từ lời nói đến âm thanh dịch trong vòng chưa đầy một giây.

Bài viết này đi qua từng giai đoạn của pipeline đó — nhận dạng giọng nói, dịch máy và tổng hợp giọng nói — và giải thích cách chúng kết hợp để cung cấp 225 ngôn ngữ cho khán giả trực tiếp.

Giai đoạn 1: Giọng nói thành văn bản — ghi nhận những gì người nói nói

STT streaming hoạt động như thế nào

Pipeline bắt đầu ngay khi người nói mở miệng. Trình duyệt thu âm thanh từ micro và gửi qua WebRTC — cùng giao thức được sử dụng cho cuộc gọi video — đến một LiveKit SFU (Selective Forwarding Unit). SFU định tuyến luồng âm thanh đến agent dịch chạy trên máy chủ.

Agent không đợi một câu hoàn chỉnh. Thay vào đó, nó truyền âm thanh theo các đoạn nhỏ đến Deepgram Nova-3, một mô hình nhận dạng giọng nói neural. Deepgram trả về các bản chuyển ngữ một phần được tinh chỉnh dần khi có thêm âm thanh đến. Một câu như “chào buổi sáng tất cả mọi người và chào mừng đến hội nghị” có thể đến dưới dạng ba kết quả từng phần: “chào buổi sáng”, rồi “chào buổi sáng tất cả mọi người và”, rồi câu hoàn chỉnh. Mỗi lần tinh chỉnh cập nhật bản dịch ở hạ nguồn gần như theo thời gian thực.

Cách tiếp cận streaming này là điều giữ cho độ trễ ở mức thấp. Hệ thống không đệm toàn bộ phát biểu trước khi hành động — nó bắt đầu xử lý trong vòng vài chục mili-giây sau khi nhận âm thanh. Đến khi người nói kết thúc một câu, pipeline dịch đã tiến triển khá xa.

Phát hiện ngôn ngữ của người nói

Deepgram Nova-3 hỗ trợ 49 mã ngôn ngữ người nói — các biến thể ngôn ngữ-khu vực như tiếng Anh Mỹ (en-US), tiếng Bồ Đào Nha Brazil (pt-BR) và tiếng Trung Giản thể (zh-CN). Người nói chọn ngôn ngữ của họ khi bắt đầu phiên. Điều này quan trọng vì nhận dạng giọng nói chính xác cần biết ngôn ngữ đầu vào. Các mô hình “tự động phát hiện” tồn tại, nhưng chúng tăng độ trễ và giảm độ chính xác cho các cặp ngôn ngữ hiếm — một đánh đổi không thể chấp nhận được trong môi trường trực tiếp.

Để biết các mẹo thực tế về cách đưa âm thanh sạch nhất vào pipeline — lựa chọn micro, vị trí đặt và âm học phòng — xem hướng dẫn của chúng tôi về cách chọn micro phù hợp.

Giai đoạn 2: Dịch máy — chuyển đổi ý nghĩa giữa các ngôn ngữ

Công cụ dịch

Khi giai đoạn giọng nói thành văn bản tạo ra bản chuyển ngữ, văn bản được chuyển sang dịch máy. Công cụ phụ thuộc vào gói của người nói:

Gói miễn phí: Google Cloud NMT (Neural Machine Translation) — nhanh và đáng tin cậy cho các cặp ngôn ngữ chính. NMT là mô hình đã được kiểm chứng trong thực tế, được huấn luyện trên hàng tỷ câu song song, xử lý các bản dịch trực tiếp với độ trễ thấp.
Các gói trả phí (Starter, Pro, Max): DualModelTranslator — sử dụng Google Cloud Translation LLM cho khoảng 100 ngôn ngữ mà các mô hình ngôn ngữ lớn tạo ra kết quả tự nhiên và nhận thức về ngữ cảnh hơn, dự phòng về NMT cho các cặp còn lại. Lợi ích của LLM là thực tế: nó xử lý thành ngữ, thay đổi phong cách, thuật ngữ chuyên ngành và ngữ cảnh tầm xa tốt hơn các phương pháp thống kê. Đối với các cặp đơn giản hơn — ví dụ tiếng Tây Ban Nha sang tiếng Bồ Đào Nha — NMT nhanh hơn và chính xác tương đương, nên hệ thống định tuyến phù hợp.

Xử lý 225 ngôn ngữ đầu ra

Hệ thống hỗ trợ 225 ngôn ngữ đầu ra, chia thành hai cấp:

51 ngôn ngữ nhận âm thanh đầy đủ. Văn bản dịch được tổng hợp thành giọng nói qua Google Cloud TTS và phân phối dưới dạng luồng âm thanh trực tiếp.
174 ngôn ngữ bổ sung nhận phụ đề văn bản trực tiếp. Bản dịch là dịch thật — không phải chuyển ngữ — nhưng được phân phối dưới dạng văn bản cuộn thay vì âm thanh.

Các ngôn ngữ được kích hoạt theo yêu cầu. Khi người nghe tham gia phiên và chọn ngôn ngữ của họ, pipeline tạo một luồng dịch cho cặp nguồn-đích cụ thể đó. Nếu không ai chọn tiếng Phần, không có bản dịch tiếng Phần nào được tạo — và không có giờ-ngôn ngữ nào bị tiêu hao. Xem danh sách đầy đủ các ngôn ngữ được hỗ trợ để biết phạm vi âm thanh và phụ đề.

Độ trễ trong bước dịch

Dịch máy là giai đoạn nhanh nhất trong pipeline:

NMT: thường 50–150 ms mỗi đoạn câu
LLM: thường 100–300 ms mỗi đoạn — chất lượng cao hơn cho văn bản phức tạp, chậm hơn một chút

Do kiến trúc streaming đưa các bản chuyển ngữ từng phần vào dịch ngay khi chúng đến, hệ thống không đợi câu hoàn chỉnh trước khi dịch. Các kết quả từng phần được tinh chỉnh khi có thêm ngữ cảnh, nghĩa là người nghe nhận được luồng nội dung dịch liên tục thay vì một chuỗi các đợt riêng biệt.

Giai đoạn 3: Văn bản thành giọng nói — cấp giọng cho bản dịch

Tổng hợp TTS hoạt động như thế nào

Đối với 51 ngôn ngữ âm thanh, văn bản dịch được chuyển đến Google Cloud TTS. Mô hình tạo ra dạng sóng âm thanh nghe tự nhiên trong ngôn ngữ đích. Mỗi ngôn ngữ có mô hình giọng riêng được tinh chỉnh theo ngữ âm học của ngôn ngữ đó — nhịp điệu, ngữ điệu và các mẫu phụ âm-nguyên âm làm cho giọng nói nghe tự nhiên thay vì giống máy móc.

Âm thanh tổng hợp được xuất bản dưới dạng luồng âm thanh mới trên LiveKit SFU. Mỗi ngôn ngữ có luồng riêng, độc lập với các ngôn ngữ khác.

Phân phối âm thanh đến người nghe

Cơ chế phân phối là WebRTC — cùng giao thức được sử dụng cho cuộc gọi video, được tối ưu hóa cho phương tiện thời gian thực có độ trễ thấp. Mỗi người nghe đăng ký luồng âm thanh tương ứng với ngôn ngữ đã chọn. Không cần trộn, không cần chuyển đổi — người nghe nghe một luồng liên tục bằng ngôn ngữ của họ từ đầu đến cuối.

Người nghe có thể tham gia từ điện thoại, máy tính bảng hoặc laptop. Để biết trải nghiệm đầy đủ của khán giả — cách người nghe quét mã QR, chọn ngôn ngữ và kết nối — xem cách dịch bằng mã QR hoạt động.

Toàn bộ pipeline bằng số liệu

Giai đoạn pipeline	Công nghệ	Độ trễ	Chi phí mỗi giờ-ngôn ngữ
Giọng nói thành văn bản	Deepgram Nova-3 (streaming)	200–400 ms	~$0.46
Dịch	Google Cloud NMT / Translation LLM	50–300 ms	~$0.02–0.08
Văn bản thành giọng nói	Google Cloud TTS	100–200 ms	~$0.79
Phân phối âm thanh	WebRTC qua LiveKit SFU	<100 ms	$0 (self-hosted)
End-to-end		350 ms–1 giây	~$1.27–$1.33

Độ trễ tích lũy ở đâu

Độ trễ end-to-end có ba nguồn:

Lưu lượng mạng vào — thời gian âm thanh đi từ trình duyệt của người nói, qua LiveKit SFU, đến agent dịch. Điều này phụ thuộc vào kết nối internet của người nói nhưng thường dưới 100 ms trên kết nối ổn định.
Xử lý — STT + dịch + TTS. Đây là phần lớn độ trễ: khoảng 350–900 ms tùy thuộc vào cặp ngôn ngữ và việc hệ thống sử dụng dịch NMT hay LLM.
Lưu lượng mạng ra — thời gian luồng âm thanh dịch đi từ SFU đến thiết bị của mỗi người nghe. Thường cũng dưới 100 ms.

Tổng độ trễ end-to-end cho các ngôn ngữ âm thanh thường nằm trong khoảng từ 0,5 đến 1,0 giây. Các ngôn ngữ có phụ đề văn bản bỏ qua hoàn toàn bước TTS, do đó đến nhanh hơn — nhưng không có âm thanh tổng hợp. Để so sánh sâu hơn giữa dịch dựa trên AI và phiên dịch con người truyền thống, xem dịch thời gian thực so với phiên dịch đồng thời.

Tại sao điều này quan trọng đối với người tổ chức sự kiện

Độ trễ dưới một giây có nghĩa là người nghe có thể theo dõi một cách tự nhiên. Họ không phải chờ đợi một cách bối rối để bản dịch bắt kịp — họ nghe phiên bản dịch đủ gần với bản gốc để nhịp điệu bài nói được giữ nguyên. Trong thực tế, hầu hết khán giả cho biết độ trễ liên tục từ 0,5–1,0 giây cảm giác giống như một khoảng dừng tự nhiên hơn là độ trễ kỹ thuật.

225 ngôn ngữ có nghĩa là không ai trong khán giả bị loại trừ. Cho dù sự kiện phục vụ một tá ngôn ngữ hay hai trăm, cùng một pipeline xử lý tất cả mà không cần thêm phần cứng, nhân sự hay thời gian thiết lập.

Pipeline chạy liên tục trong nhiều giờ mà không mệt mỏi — khác với phiên dịch viên con người, những người luân phiên mỗi 20 phút để duy trì độ chính xác. Một hội nghị bốn giờ được dịch sang tám ngôn ngữ chạy cùng một pipeline từ đầu đến cuối, với chất lượng đồng nhất xuyên suốt.

Chi phí được xác định bởi số luồng ngôn ngữ, không phải quy mô khán giả. Cho dù 5 hay 350 người nghe bằng tiếng Pháp, chi phí là một giờ-ngôn ngữ mỗi giờ. Để biết phân tích đầy đủ về mô hình thanh toán, xem mô hình giá theo giờ-ngôn ngữ.

Tóm tắt

Dịch giọng nói thời gian thực là một pipeline ba giai đoạn — nhận dạng, dịch, tổng hợp — chuyển đổi giọng của một người nói thành ngôn ngữ của hàng trăm người nghe trong chưa đầy một giây. Mỗi giai đoạn là một mô hình AI đã được kiểm chứng trong thực tế: Deepgram cho nhận dạng giọng nói, Google Cloud cho dịch và tổng hợp giọng nói, WebRTC cho phân phối. Các thành phần không mang tính thử nghiệm. Chúng hoạt động ở quy mô lớn trong môi trường sản xuất mỗi ngày.

Công nghệ đã đủ trưởng thành cho hội nghị, cuộc họp dân, lớp học và phát thanh. Đây không phải là thử nghiệm trong phòng thí nghiệm — nó đang chạy tại các sự kiện ngày hôm nay, cung cấp 225 ngôn ngữ với độ trễ dưới một giây ở chi phí khoảng $1.30 mỗi giờ-ngôn ngữ.

Bạn muốn xem dịch giọng nói thời gian thực hoạt động? Bắt đầu phiên miễn phí — nói bằng bất kỳ ngôn ngữ nào trong 49 ngôn ngữ, khán giả của bạn nghe bằng 225 ngôn ngữ. Không cần thiết lập, không cần thẻ tín dụng.