Gerçek zamanlı konuşma çevirisi nasıl çalışır — mikrofondan 225 dile
Gerçek zamanlı konuşma çevirisi, konuşmacının sesini konuşma tanıma, makine çevirisi ve konuşma sentezi işlem hattı ile 225 dile çevrilmiş sese dönüştürür. Her aşamanın nasıl çalıştığı aşağıda açıklanmaktadır.
Gerçek zamanlı konuşma çevirisi sihir gibi görünebilir: bir kişi konuşur ve anlar sonra yüzlerce dinleyici aynı kelimeleri kendi dilinde duyar. Bu deneyimin arkasında sıralı olarak üç yapay zeka modeli çalıştıran ve sözlü sözcükten çevrilmiş sese olan yolculuğu bir saniyenin altında tamamlayan bir yazılım işlem hattı bulunur.
Bu makale, söz konusu işlem hattının her aşamasını — konuşma tanıma, makine çevirisi ve konuşma sentezi — adım adım ele alır ve bunların canlı bir dinleyici kitlesine 225 dili nasıl birlikte sunduğunu açıklar.
Aşama 1: Konuşmadan metne — konuşmacının söylediklerini yakalamak
Akışlı STT nasıl çalışır
İşlem hattı konuşmacının ağzını açtığı an başlar. Tarayıcı, mikrofondan sesi yakalar ve WebRTC — video aramalarında kullanılan aynı protokol — üzerinden bir LiveKit SFU’ya (Seçici İletim Birimi) gönderir. SFU, ses parçasını sunucuda çalışan çeviri aracısına yönlendirir.
Aracı tamamlanmış bir cümle beklemez. Bunun yerine, sesi küçük parçalar halinde Deepgram Nova-3’e, bir sinirsel konuşma tanıma modeline, akışla iletir. Deepgram, daha fazla ses geldikçe iyileştirilen kısmi transkriptler döndürür. “Herkese günaydın ve konferansa hoş geldiniz” gibi bir cümle üç kısmi sonuç olarak gelebilir: önce “Herkese günaydın”, ardından “Herkese günaydın ve konferansa”, son olarak tam cümle. Her iyileştirme, aşağı akış çevirisini neredeyse gerçek zamanlı olarak günceller.
Bu akışlı yaklaşım, gecikmeyi düşük tutan şeydir. Sistem harekete geçmeden önce tüm bir sözü tampona almaz — sesi aldıktan sonra onlarca milisaniye içinde işlemeye başlar. Konuşmacı bir cümleyi bitirdiğinde, çeviri işlem hattı çoktan ilerlemiş durumdadır.
Konuşmacı dilinin algılanması
Deepgram Nova-3, 49 konuşmacı dil kodunu destekler — Amerikan İngilizcesi (en-US), Brezilya Portekizcesi (pt-BR) ve Basitleştirilmiş Çince (zh-CN) gibi dil-bölge varyantları. Konuşmacı, oturumu başlatırken dilini seçer. Bu, doğru konuşma tanımanın giriş dilini bilmeyi gerektirdiği için önemlidir. “Otomatik algılama” modelleri mevcuttur, ancak bunlar gecikme ekler ve nadir dil çiftleri için doğruluğu düşürür — canlı bir ortamda kabul edilemez bir takas.
İşlem hattına en temiz sesi sağlama konusunda pratik ipuçları — mikrofon seçimi, yerleşimi ve oda akustiği — için doğru mikrofonu seçme kılavuzumuza bakın.
Aşama 2: Makine çevirisi — diller arası anlam aktarımı
Çeviri motoru
Konuşmadan metne aşaması bir transkript ürettiğinde, metin makine çevirisine geçer. Motor, konuşmacının planına bağlıdır:
- Ücretsiz plan: Google Cloud NMT (Sinirsel Makine Çevirisi) — başlıca dil çiftleri için hızlı ve güvenilirdir. NMT, milyarlarca paralel cümleyle eğitilmiş, üretimde kanıtlanmış bir modeldir ve doğrudan çevirileri düşük gecikmeyle halleder.
- Ücretli planlar (Starter, Pro, Max): DualModelTranslator — büyük dil modellerinin daha doğal ve bağlama duyarlı çıktılar ürettiği yaklaşık 100 dil için Google Cloud Translation LLM kullanır, kalan çiftler için NMT’ye geri döner. LLM’nin avantajı gerçektir: deyimleri, üslup değişimlerini, alan terminolojisini ve uzun menzilli bağlamı istatistiksel yaklaşımlardan daha iyi ele alır. Daha basit çiftler için — örneğin İspanyolcadan Portekizceye — NMT daha hızlı ve eşit derecede doğrudur, bu nedenle sistem buna göre yönlendirme yapar.
225 çıktı dilinin yönetimi
Sistem 225 çıktı dilini destekler ve bunları iki katmana ayırır:
- 51 dil tam ses alır. Çevrilmiş metin, Google Cloud TTS aracılığıyla konuşmaya dönüştürülür ve canlı ses akışı olarak teslim edilir.
- 174 ek dil canlı metin altyazıları alır. Çeviri gerçek ve çevrilmiş — transkript edilmiş değil — ancak ses yerine kayan metin olarak teslim edilir.
Diller talep üzerine etkinleştirilir. Bir dinleyici oturuma katıldığında ve dilini seçtiğinde, işlem hattı o belirli kaynak-hedef çifti için bir çeviri akışı oluşturur. Hiç kimse Fince’yi seçmezse, Fince çeviri oluşturulmaz — ve bunun için dil-saatleri tüketilmez. Ses ve altyazı kapsamı için desteklenen dillerin tam listesine bakın.
Çeviri adımındaki gecikme
Makine çevirisi, işlem hattındaki en hızlı aşamadır:
- NMT: cümle parçası başına tipik olarak 50–150 ms
- LLM: parça başına tipik olarak 100–300 ms — karmaşık metin için daha yüksek kalite, marjinal olarak daha yavaş
Akışlı mimari kısmi transkriptleri geldikleri anda çeviriye beslediğinden, sistem çeviri yapmadan önce tam bir cümle beklemez. Kısmi sonuçlar daha fazla bağlam kullanılabilir hale geldikçe iyileştirilir; bu da dinleyicinin ayrık patlamalar dizisi yerine sürekli bir çevrilmiş içerik akışı aldığı anlamına gelir.
Aşama 3: Metinden konuşmaya — çeviriye ses verme
TTS sentezi nasıl çalışır
51 ses dili için çevrilmiş metin, Google Cloud TTS’ye iletilir. Model, hedef dilde doğal sesli bir dalga biçimi oluşturur. Her dilin, o dilin fonolojisine — konuşmayı robotik yerine doğal kılan ritim, tonlama ve ünsüz-ünlü örüntülerine — ayarlanmış kendi ses modeli vardır.
Sentezlenmiş ses, LiveKit SFU üzerinde yeni bir ses parçası olarak yayınlanır. Her dil, diğerlerinden bağımsız kendi parçasını alır.
Dinleyicilere ses teslimi
Teslim mekanizması WebRTC’dir — video aramalarında kullanılan aynı protokol, düşük gecikmeli gerçek zamanlı medya için optimize edilmiş. Her dinleyici, seçtiği dile karşılık gelen ses parçasına abone olur. Karıştırma yok, geçiş yok — dinleyici baştan sona kendi dilinde kesintisiz bir akış duyar.
Dinleyiciler telefondan, tabletten veya dizüstü bilgisayardan katılabilir. Tam dinleyici deneyimi için — bir dinleyicinin QR kodunu nasıl taradığı, dil seçtiği ve bağlandığı — QR kod çevirisi nasıl çalışır makalesine bakın.
Tam işlem hattı rakamlarla
| İşlem hattı aşaması | Teknoloji | Gecikme | Dil-saat başına maliyet |
|---|---|---|---|
| Konuşmadan metne | Deepgram Nova-3 (akışlı) | 200–400 ms | ~$0.46 |
| Çeviri | Google Cloud NMT / Translation LLM | 50–300 ms | ~$0.02–0.08 |
| Metinden konuşmaya | Google Cloud TTS | 100–200 ms | ~$0.79 |
| Ses teslimi | WebRTC üzerinden LiveKit SFU | <100 ms | $0 (kendi sunucunuzda) |
| Uçtan uca | 350 ms–1 s | ~$1.27–$1.33 |
Gecikme nerede birikir
Uçtan uca gecikmenin üç kaynağı vardır:
- Ağ girişi — sesin konuşmacının tarayıcısından LiveKit SFU üzerinden çeviri aracısına seyahat süresi. Bu, konuşmacının internet bağlantısına bağlıdır, ancak kararlı bir bağlantıda tipik olarak 100 ms’nin altındadır.
- İşleme — STT + çeviri + TTS. Bu, gecikmenin büyük kısmıdır: dil çiftine ve sistemin NMT mi yoksa LLM çevirisi mi kullandığına bağlı olarak yaklaşık 350–900 ms.
- Ağ çıkışı — çevrilmiş ses parçasının SFU’dan her dinleyicinin cihazına seyahat süresi. Yine tipik olarak 100 ms’nin altında.
Ses dilleri için toplam uçtan uca gecikme tipik olarak 0,5 ile 1,0 saniye arasındadır. Metin altyazılı diller TTS adımını tamamen atlar, bu nedenle daha hızlı ulaşır — ancak sentezlenmiş ses olmadan. Yapay zeka destekli çeviri ile geleneksel insan simültane tercümesi arasında daha derin bir karşılaştırma için bkz. gerçek zamanlı çeviri ve simültane tercüme karşılaştırması.
Bu, etkinlik düzenleyicileri için neden önemli
Bir saniyenin altındaki gecikme, dinleyicilerin doğal bir şekilde takip edebileceği anlamına gelir. Çevirinin yetişmesini beklerken tuhaf bir sessizlik yaşamazlar — çevrilmiş versiyonu, konuşmanın ritminin korunduğu kadar orijinale yakın duyarlar. Uygulamada, birçok dinleyici kitlesi tutarlı bir 0,5–1,0 saniyelik gecikmenin teknik bir gecikme değil, doğal bir duraklama gibi hissettirdiğini bildirmektedir.
225 dil, hiçbir dinleyicinin dışlanmadığı anlamına gelir. Etkinlik bir düzine mi yoksa iki yüz dil mi hizmet veriyor olursa olsun, aynı işlem hattı ek donanım, personel veya kurulum süresi olmadan hepsini halleder.
İşlem hattı yorulmadan saatlerce kesintisiz çalışır — doğruluğu korumak için her 20 dakikada bir dönüşümlü çalışan insan tercümanların aksine. Sekiz dile çevrilen dört saatlik bir konferans, aynı işlem hattını baştan sona tutarlı kaliteyle çalıştırır.
Maliyet, dil parçaları tarafından belirlenir, dinleyici kitlesinin büyüklüğü tarafından değil. İster 5, ister 350 kişi Fransızca dinlesin, maliyet saat başına bir dil-saattir. Faturalandırma modelinin tam detayları için bkz. dil-saat fiyatlandırma modeli.
Sonuç
Gerçek zamanlı konuşma çevirisi, üç aşamalı bir işlem hattıdır — tanı, çevir, sentezle — ve bir konuşmacının sesini bir saniyenin altında yüzlerce dinleyicinin diline dönüştürür. Her aşama, üretimde kanıtlanmış bir yapay zeka modelidir: konuşma tanıma için Deepgram, çeviri ve konuşma sentezi için Google Cloud, teslimat için WebRTC. Bu bileşenler deneysel değildir. Her gün üretim ortamlarında büyük ölçekte çalışmaktadır.
Teknoloji konferanslar, şehir meclis toplantıları, sınıflar ve yayınlara yetecek kadar olgundur. Bu bir laboratuvar deneyi değildir — bugün etkinliklerde çalışmakta, dil-saat başına yaklaşık $1.30 maliyetle bir saniyenin altındaki gecikmeyle 225 dil sunmaktadır.
Gerçek zamanlı konuşma çevirisini eylem halinde görmek ister misiniz? Ücretsiz bir oturum başlatın — 49 dilden herhangi birinde konuşun, dinleyici kitleniz 225 dilde duysun. Kurulum yok, kredi kartı yok.