Bagaimana terjemahan suara real-time bekerja — dari mikrofon ke 225 bahasa
Terjemahan suara real-time mengubah suara pembicara menjadi audio terjemahan dalam 225 bahasa melalui pipeline pengenalan suara, terjemahan mesin, dan sintesis suara. Berikut cara kerja setiap tahapannya.
Terjemahan suara real-time terlihat seperti sulap: seseorang berbicara, dan sekejap kemudian ratusan pendengar mendengar kata-kata yang sama dalam bahasa mereka sendiri. Di balik pengalaman tersebut terdapat pipeline perangkat lunak yang menjalankan tiga model AI secara berurutan, menyelesaikan perjalanan dari kata yang diucapkan menjadi audio terjemahan dalam waktu kurang dari satu detik.
Artikel ini menelusuri setiap tahapan pipeline tersebut — pengenalan suara, terjemahan mesin, dan sintesis suara — dan menjelaskan bagaimana ketiganya bekerja sama untuk menghadirkan 225 bahasa kepada audiens langsung.
Tahap 1: Suara ke teks — menangkap apa yang dikatakan pembicara
Cara kerja STT streaming
Pipeline dimulai saat pembicara membuka mulutnya. Browser menangkap audio dari mikrofon dan mengirimkannya melalui WebRTC — protokol yang sama yang digunakan untuk panggilan video — ke sebuah LiveKit SFU (Selective Forwarding Unit). SFU merutekan jalur audio ke agen terjemahan yang berjalan di server.
Agen tidak menunggu kalimat yang sempurna. Sebaliknya, ia menstreaming audio dalam potongan kecil ke Deepgram Nova-3, sebuah model pengenalan suara neural. Deepgram mengembalikan transkrip parsial yang disempurnakan seiring masuknya audio tambahan. Kalimat seperti “selamat pagi semuanya dan selamat datang di konferensi” mungkin tiba sebagai tiga hasil parsial: “selamat pagi”, lalu “selamat pagi semuanya dan”, lalu kalimat lengkap. Setiap penyempurnaan memperbarui terjemahan hilir mendekati real-time.
Pendekatan streaming inilah yang menjaga latensi tetap rendah. Sistem tidak menyangga seluruh ucapan sebelum bertindak — ia mulai memproses dalam hitungan puluhan milidetik setelah menerima audio. Saat pembicara menyelesaikan sebuah kalimat, pipeline terjemahan sudah jauh berjalan.
Deteksi bahasa pembicara
Deepgram Nova-3 mendukung 49 kode bahasa pembicara — varian bahasa-wilayah seperti bahasa Inggris Amerika (en-US), bahasa Portugis Brasil (pt-BR), dan bahasa Tionghoa Sederhana (zh-CN). Pembicara memilih bahasanya saat memulai sesi. Hal ini penting karena pengenalan suara yang akurat memerlukan pengetahuan tentang bahasa masukan. Model “deteksi otomatis” memang ada, tetapi menambah latensi dan mengurangi akurasi untuk pasangan bahasa yang jarang — sebuah pertukaran yang tidak dapat diterima dalam situasi langsung.
Untuk tips praktis tentang cara memasukkan audio terbersih ke dalam pipeline — pemilihan mikrofon, penempatan, dan akustik ruangan — lihat panduan kami tentang memilih mikrofon yang tepat.
Tahap 2: Terjemahan mesin — mengkonversi makna lintas bahasa
Mesin terjemahan
Setelah tahap suara-ke-teks menghasilkan transkrip, teks masuk ke terjemahan mesin. Mesinnya bergantung pada paket pembicara:
- Paket gratis: Google Cloud NMT (Neural Machine Translation) — cepat dan andal untuk pasangan bahasa utama. NMT adalah model yang terbukti di produksi, dilatih pada miliaran kalimat paralel, dan menangani terjemahan langsung dengan latensi rendah.
- Paket berbayar (Starter, Pro, Max): DualModelTranslator — menggunakan Google Cloud Translation LLM untuk sekitar 100 bahasa di mana model bahasa besar menghasilkan output yang lebih natural dan peka konteks, dengan fallback ke NMT untuk pasangan sisanya. Keunggulan LLM nyata: ia menangani idiom, pergeseran register, terminologi khusus domain, dan konteks jarak jauh lebih baik daripada pendekatan statistik. Untuk pasangan yang lebih sederhana — misalnya Spanyol ke Portugis — NMT lebih cepat dan sama akuratnya, sehingga sistem merutekan sesuai kebutuhan.
Menangani 225 bahasa keluaran
Sistem mendukung 225 bahasa keluaran, dibagi menjadi dua tingkatan:
- 51 bahasa menerima audio penuh. Teks terjemahan disintesis menjadi ucapan melalui Google Cloud TTS dan dikirimkan sebagai streaming audio langsung.
- 174 bahasa tambahan menerima teks langsung. Terjemahan bersifat nyata dan diterjemahkan — bukan ditranskripsi — tetapi dikirimkan sebagai teks bergulir alih-alih audio.
Bahasa diaktifkan sesuai permintaan. Saat pendengar bergabung dengan sesi dan memilih bahasanya, pipeline membuat aliran terjemahan untuk pasangan sumber-target tertentu tersebut. Jika tidak ada yang memilih Bahasa Finlandia, tidak ada terjemahan Finlandia yang dihasilkan — dan tidak ada jam-bahasa yang dikonsumsi. Lihat daftar lengkap bahasa yang didukung untuk cakupan audio dan teks.
Latensi pada langkah terjemahan
Terjemahan mesin adalah tahap tercepat dalam pipeline:
- NMT: biasanya 50–150 ms per fragmen kalimat
- LLM: biasanya 100–300 ms per fragmen — kualitas lebih tinggi untuk teks kompleks, sedikit lebih lambat
Karena arsitektur streaming memasukkan transkrip parsial ke terjemahan saat tiba, sistem tidak menunggu kalimat lengkap sebelum menerjemahkan. Hasil parsial disempurnakan seiring tersedianya konteks tambahan, yang berarti pendengar menerima aliran konten terjemahan yang stabil, bukan serentetan ledakan diskrit.
Tahap 3: Teks ke suara — memberikan suara pada terjemahan
Cara kerja sintesis TTS
Untuk 51 bahasa audio, teks terjemahan dikirim ke Google Cloud TTS. Model menghasilkan bentuk gelombang audio yang terdengar natural dalam bahasa target. Setiap bahasa memiliki model suaranya sendiri yang disesuaikan dengan fonologi bahasa tersebut — ritme, intonasi, dan pola konsonan-vokal yang membuat ucapan terdengar natural, bukan robotik.
Audio yang disintesis diterbitkan sebagai jalur audio baru di LiveKit SFU. Setiap bahasa mendapatkan jalurnya sendiri, terpisah dari yang lain.
Pengiriman audio ke pendengar
Mekanisme pengiriman adalah WebRTC — protokol yang sama yang digunakan untuk panggilan video, dioptimalkan untuk media real-time berlatensi rendah. Setiap pendengar berlangganan ke jalur audio yang sesuai dengan bahasa pilihannya. Tanpa pencampuran, tanpa pengalihan — pendengar mendengar satu aliran kontinu dalam bahasanya dari awal hingga akhir.
Pendengar dapat bergabung dari ponsel, tablet, atau laptop. Untuk pengalaman audiens secara menyeluruh — bagaimana seorang pendengar memindai kode QR, memilih bahasa, dan terhubung — lihat bagaimana terjemahan kode QR bekerja.
Pipeline lengkap dalam angka
| Tahapan pipeline | Teknologi | Latensi | Biaya per jam-bahasa |
|---|---|---|---|
| Suara ke teks | Deepgram Nova-3 (streaming) | 200–400 ms | ~$0.46 |
| Terjemahan | Google Cloud NMT / Translation LLM | 50–300 ms | ~$0.02–0.08 |
| Teks ke suara | Google Cloud TTS | 100–200 ms | ~$0.79 |
| Pengiriman audio | WebRTC melalui LiveKit SFU | <100 ms | $0 (self-hosted) |
| Ujung ke ujung | 350 ms–1 dtk | ~$1.27–$1.33 |
Di mana latensi terakumulasi
Latensi ujung ke ujung memiliki tiga sumber:
- Masukan jaringan — waktu yang dibutuhkan audio untuk berpindah dari browser pembicara, melalui LiveKit SFU, ke agen terjemahan. Ini tergantung pada koneksi internet pembicara tetapi biasanya di bawah 100 ms pada koneksi yang stabil.
- Pemrosesan — STT + terjemahan + TTS. Ini merupakan bagian terbesar dari penundaan: sekitar 350–900 ms tergantung pada pasangan bahasa dan apakah sistem menggunakan terjemahan NMT atau LLM.
- Keluaran jaringan — waktu yang dibutuhkan jalur audio terjemahan untuk berpindah dari SFU ke perangkat setiap pendengar. Sekali lagi, biasanya di bawah 100 ms.
Total latensi ujung ke ujung untuk bahasa audio biasanya berkisar antara 0,5 hingga 1,0 detik. Bahasa dengan teks langsung melewatkan tahap TTS sepenuhnya, sehingga tiba lebih cepat — tetapi tanpa audio sintesis. Untuk perbandingan yang lebih mendalam antara terjemahan berbasis AI dengan interpretasi manusia tradisional, lihat terjemahan real-time vs interpretasi simultan.
Mengapa ini penting bagi penyelenggara acara
Latensi sub-detik berarti pendengar dapat mengikuti secara alami. Mereka tidak menunggu canggung terjemahan mengejar — mereka mendengar versi terjemahan yang cukup dekat dengan aslinya sehingga ritme pembicaraan tetap terjaga. Dalam praktiknya, sebagian besar audiens melaporkan bahwa penundaan konsisten 0,5–1,0 detik terasa seperti jeda alami, bukan lag teknis.
225 bahasa berarti tidak ada anggota audiens yang terpinggirkan. Entah acara melayani selusin bahasa atau dua ratus, pipeline yang sama menangani semuanya tanpa perangkat tambahan, personel, atau waktu penyiapan.
Pipeline berjalan terus-menerus selama berjam-jam tanpa kelelahan — tidak seperti penerjemah manusia yang bergantian setiap 20 menit untuk mempertahankan akurasi. Konferensi empat jam yang diterjemahkan ke delapan bahasa menjalankan pipeline yang sama dari awal hingga akhir, dengan kualitas yang konsisten sepanjang waktu.
Biaya didorong oleh jalur bahasa, bukan ukuran audiens. Baik 5 atau 350 orang mendengarkan dalam bahasa Prancis, biayanya adalah satu jam-bahasa per jam. Untuk rincian lengkap model penagihan, lihat model harga jam-bahasa.
Kesimpulan
Terjemahan suara real-time adalah pipeline tiga tahap — kenali, terjemahkan, sintesiskan — yang mengubah suara satu pembicara menjadi bahasa ratusan pendengar dalam waktu kurang dari satu detik. Setiap tahap adalah model AI yang terbukti di produksi: Deepgram untuk pengenalan suara, Google Cloud untuk terjemahan dan sintesis suara, WebRTC untuk pengiriman. Komponen-komponen ini tidak bersifat eksperimental. Mereka berjalan dalam skala besar di lingkungan produksi setiap hari.
Teknologi ini sudah cukup matang untuk konferensi, rapat umum, ruang kelas, dan siaran. Ini bukan eksperimen laboratorium — ini berjalan di acara-acara hari ini, menghadirkan 225 bahasa dengan latensi sub-detik dengan biaya sekitar $1.30 per jam-bahasa.
Ingin melihat terjemahan suara real-time beraksi? Mulai sesi gratis — berbicara dalam salah satu dari 49 bahasa, audiens Anda mendengar dalam 225 bahasa. Tanpa penyiapan, tanpa kartu kredit.