Explainer

रीयल-टाइम स्पीच ट्रांसलेशन कैसे काम करता है — माइक्रोफ़ोन से 225 भाषाओं तक

रीयल-टाइम स्पीच ट्रांसलेशन स्पीच रिकग्निशन, मशीन ट्रांसलेशन और स्पीच सिंथेसिस के पाइपलाइन के माध्यम से एक स्पीकर की आवाज़ को 225 भाषाओं में अनुवादित ऑडियो में बदलता है। यहाँ बताया गया है कि प्रत्येक चरण कैसे काम करता है।

अंतिम अपडेट · 27 मई 2026 9 मिनट पढ़ने का समय

रीयल-टाइम स्पीच ट्रांसलेशन जादू जैसा लगता है: एक व्यक्ति बोलता है, और कुछ ही पलों में सैकड़ों श्रोता अपनी भाषा में वही बातें सुनते हैं। इस अनुभव के पीछे एक सॉफ़्टवेयर पाइपलाइन है जो तीन AI मॉडल क्रमिक रूप से चलाती है, और बोले गए शब्द से अनुवादित ऑडियो तक की यात्रा एक सेकंड से कम में पूरी करती है।

यह लेख उस पाइपलाइन के प्रत्येक चरण — स्पीच रिकग्निशन, मशीन ट्रांसलेशन और स्पीच सिंथेसिस — को देखता है और समझाता है कि वे कैसे मिलकर एक लाइव श्रोताओं को 225 भाषाएँ प्रदान करते हैं।

चरण 1: स्पीच से टेक्स्ट — स्पीकर की बात को कैप्चर करना

स्ट्रीमिंग STT कैसे काम करता है

पाइपलाइन उसी क्षण शुरू होती है जब स्पीकर अपना मुँह खोलता है। ब्राउज़र माइक्रोफ़ोन से ऑडियो कैप्चर करता है और इसे WebRTC — वीडियो कॉल में उपयोग होने वाले उसी प्रोटोकॉल — के माध्यम से एक LiveKit SFU (सिलेक्टिव फ़ॉरवर्डिंग यूनिट) पर भेजता है। SFU ऑडियो ट्रैक को सर्वर पर चल रहे ट्रांसलेशन एजेंट को रूट करता है।

एजेंट पूरे वाक्य का इंतज़ार नहीं करता। इसके बजाय, यह ऑडियो को छोटे-छोटे टुकड़ों में Deepgram Nova-3 को स्ट्रीम करता है, जो एक न्यूरल स्पीच रिकग्निशन मॉडल है। Deepgram आंशिक ट्रांसक्रिप्ट लौटाता है जो अधिक ऑडियो आने पर सुधरते जाते हैं। “सुप्रभात सबको और कॉन्फ़्रेंस में आपका स्वागत है” जैसा एक वाक्य तीन आंशिक परिणामों में आ सकता है: “सुप्रभात”, फिर “सुप्रभात सबको और”, और फिर पूरा वाक्य। प्रत्येक सुधार डाउनस्ट्रीम ट्रांसलेशन को लगभग रीयल-टाइम में अपडेट करता है।

यह स्ट्रीमिंग दृष्टिकोण ही है जो लेटेंसी को कम रखता है। सिस्टम पूरी उच्चारण को बफ़र करने के बाद काम शुरू नहीं करता — यह ऑडियो प्राप्त करने के कुछ दसियों मिलीसेकंड के भीतर प्रोसेसिंग शुरू कर देता है। जब स्पीकर वाक्य पूरा करता है, तब तक ट्रांसलेशन पाइपलाइन पहले से काफ़ी आगे बढ़ चुकी होती है।

स्पीकर की भाषा का पता लगाना

Deepgram Nova-3 49 स्पीकर भाषा कोड का समर्थन करता है — अमेरिकी अंग्रेज़ी (en-US), ब्राज़ीलियन पुर्तगाली (pt-BR), और सरलीकृत चीनी (zh-CN) जैसी भाषा-क्षेत्र वैरिएंट। स्पीकर सेशन शुरू करते समय अपनी भाषा चुनता है। यह इसलिए महत्वपूर्ण है क्योंकि सटीक स्पीच रिकग्निशन के लिए इनपुट भाषा जानना ज़रूरी है। “ऑटो-डिटेक्ट” मॉडल मौजूद हैं, लेकिन वे लेटेंसी बढ़ाते हैं और दुर्लभ भाषा जोड़ों के लिए सटीकता कम करते हैं — एक लाइव सेटिंग में अस्वीकार्य समझौता।

पाइपलाइन में सबसे साफ़ ऑडियो पाने के व्यावहारिक सुझावों — माइक्रोफ़ोन का चुनाव, प्लेसमेंट और कमरे की ध्वनिकी — के लिए हमारी सही माइक्रोफ़ोन चुनने की गाइड देखें।

चरण 2: मशीन ट्रांसलेशन — भाषाओं के बीच अर्थ का रूपांतरण

ट्रांसलेशन इंजन

जैसे ही स्पीच-टू-टेक्स्ट चरण एक ट्रांसक्रिप्ट बनाता है, टेक्स्ट मशीन ट्रांसलेशन में जाता है। इंजन स्पीकर के प्लान पर निर्भर करता है:

मुफ़्त टियर: Google Cloud NMT (न्यूरल मशीन ट्रांसलेशन) — प्रमुख भाषा जोड़ों के लिए तेज़़ और विश्वसनीय। NMT एक प्रोडक्शन-परीक्षित मॉडल है जिसे अरबों समांतर वाक्यों पर प्रशिक्षित किया गया है, और यह सीधे ट्रांसलेशन कम लेटेंसी में संभालता है।
भुगतान वाले टियर (Starter, Pro, Max): DualModelTranslator — लगभग 100 भाषाओं के लिए Google Cloud Translation LLM का उपयोग करता है जहाँ बड़े भाषा मॉडल अधिक प्राकृतिक और संदर्भ-जागरूक आउटपुट देते हैं, बाकी जोड़ों के लिए NMT पर वापस जाता है। LLM का लाभ वास्तविक है: यह मुहावरों, रजिस्टर बदलावों, डोमेन-विशिष्ट शब्दावली और लंबी-दूरी के संदर्भ को सांख्यिकीय दृष्टिकोणों से बेहतर संभालता है। सरल जोड़ों के लिए — जैसे स्पेनिश से पुर्तगाली — NMT तेज़़ है और उतना ही सटीक, इसलिए सिस्टम उसी तरह रूट करता है।

225 आउटपुट भाषाओं का प्रबंधन

सिस्टम 225 आउटपुट भाषाओं का समर्थन करता है, दो स्तरों में विभाजित:

51 भाषाएँ पूर्ण ऑडियो प्राप्त करती हैं। अनुवादित टेक्स्ट Google Cloud TTS के माध्यम से स्पीच में सिंथेसाइज़ किया जाता है और लाइव ऑडियो स्ट्रीम के रूप में वितरित किया जाता है।
174 अतिरिक्त भाषाएँ लाइव टेक्स्ट कैप्शन प्राप्त करती हैं। ट्रांसलेशन असली और अनुवादित है — ट्रांसक्राइब्ड नहीं — लेकिन ऑडियो के बजाय स्क्रॉल होने वाले टेक्स्ट के रूप में वितरित किया जाता है।

भाषाएँ ऑन-डिमांड सक्रिय होती हैं। जब कोई श्रोता सेशन में शामिल होता है और अपनी भाषा चुनता है, तो पाइपलाइन उस विशिष्ट स्रोत-लक्ष्य जोड़े के लिए एक ट्रांसलेशन स्ट्रीम बनाती है। अगर कोई भी फ़िनिश नहीं चुनता, तो कोई फ़िनिश ट्रांसलेशन जनरेट नहीं होता — और कोई भाषा-घंटे खर्च नहीं होते। ऑडियो और कैप्शन कवरेज के लिए समर्थित भाषाओं की पूरी सूची देखें।

ट्रांसलेशन चरण में लेटेंसी

मशीन ट्रांसलेशन पाइपलाइन का सबसे तेज़़ चरण है:

NMT: आमतौर पर प्रति वाक्य खंड 50–150 ms
LLM: आमतौर पर प्रति खंड 100–300 ms — जटिल टेक्स्ट के लिए उच्च गुणवत्ता, हल्का धीमा

चूँकि स्ट्रीमिंग आर्किटेक्चर आंशिक ट्रांसक्रिप्ट को आते ही ट्रांसलेशन में भेजता है, सिस्टम पूरे वाक्य का इंतज़ार नहीं करता। आंशिक परिणाम अधिक संदर्भ उपलब्ध होने पर सुधरते हैं, जिसका मतलब है कि श्रोता अलग-अलग झटकों की श्रृंखला के बजाय अनुवादित सामग्री का निरंतर प्रवाह प्राप्त करता है।

चरण 3: टेक्स्ट से स्पीच — ट्रांसलेशन को आवाज़ देना

TTS सिंथेसिस कैसे काम करता है

51 ऑडियो भाषाओं के लिए, अनुवादित टेक्स्ट Google Cloud TTS में जाता है। मॉडल लक्ष्य भाषा में प्राकृतिक-सounding ऑडियो वेवफ़ॉर्म जनरेट करता है। प्रत्येक भाषा का अपना वॉइस मॉडल है जो उस भाषा की ध्वन्यात्मकता — लय, स्वराघात, और व्यंजन-स्वर पैटर्न — के लिए ट्यून किया गया है जो स्पीच को रोबोटिक के बजाय प्राकृतिक बनाते हैं।

सिंथेसाइज़्ड ऑडियो LiveKit SFU पर एक नए ऑडियो ट्रैक के रूप में प्रकाशित होता है। प्रत्येक भाषा को अपना अलग ट्रैक मिलता है, जो अन्य से स्वतंत्र होता है।

श्रोताओं तक ऑडियो वितरण

वितरण तंत्र WebRTC है — वीडियो कॉल में उपयोग किया जाने वाला वही प्रोटोकॉल, कम लेटेंसी रीयल-टाइम मीडिया के लिए अनुकूलित। प्रत्येक श्रोता अपनी चुनी हुई भाषा से मेल खाने वाले ऑडियो ट्रैक की सदस्यता लेता है। कोई मिक्सिंग नहीं, कोई स्विचिंग नहीं — श्रोता शुरू से अंत तक अपनी भाषा में एक निरंतर स्ट्रीम सुनता है।

श्रोता फ़ोन, टैबलेट या लैपटॉप से शामिल हो सकते हैं। पूर्ण श्रोता अनुभव के लिए — एक श्रोता QR कोड कैसे स्कैन करता है, भाषा चुनता है और कनेक्ट होता है — QR कोड ट्रांसलेशन कैसे काम करता है देखें।

पूरी पाइपलाइन संख्याओं में

पाइपलाइन चरण	तकनीक	लेटेंसी	प्रति भाषा-घंटा लागत
स्पीच से टेक्स्ट	Deepgram Nova-3 (स्ट्रीमिंग)	200–400 ms	~$0.46
ट्रांसलेशन	Google Cloud NMT / Translation LLM	50–300 ms	~$0.02–0.08
टेक्स्ट से स्पीच	Google Cloud TTS	100–200 ms	~$0.79
ऑडियो वितरण	WebRTC via LiveKit SFU	<100 ms	$0 (सेल्फ-होस्टेड)
एंड-टू-एंड		350 ms–1 s	~$1.27–$1.33

लेटेंसी कहाँ जमा होती है

एंड-टू-एंड लेटेंसी के तीन स्रोत हैं:

नेटवर्क इनग्रेस — स्पीकर के ब्राउज़र से LiveKit SFU होते हुए ट्रांसलेशन एजेंट तक ऑडियो की यात्रा का समय। यह स्पीकर के इंटरनेट कनेक्शन पर निर्भर करता है लेकिन स्थिर कनेक्शन पर आमतौर पर 100 ms से कम होता है।
प्रोसेसिंग — STT + ट्रांसलेशन + TTS। यह देरी का सबसे बड़ा हिस्सा है: भाषा जोड़े और सिस्टम द्वारा NMT या LLM ट्रांसलेशन के उपयोग के आधार पर लगभग 350–900 ms।
नेटवर्क एग्रेस — अनुवादित ऑडियो ट्रैक का SFU से प्रत्येक श्रोता के डिवाइस तक यात्रा करने का समय। यह भी आमतौर पर 100 ms से कम।

ऑडियो भाषाओं के लिए कुल एंड-टू-एंड लेटेंसी आमतौर पर 0.5 से 1.0 सेकंड के बीच होती है। टेक्स्ट कैप्शन वाली भाषाएँ TTS चरण पूरी तरह छोड़ देती हैं, इसलिए वे जल्दी पहुँचती हैं — लेकिन सिंथेसाइज़्ड ऑडियो के बिना। AI-संचालित ट्रांसलेशन और पारंपरिक मानवीय समकालिक व्याख्या की गहन तुलना के लिए रीयल-टाइम ट्रांसलेशन vs समकालिक व्याख्या देखें।

इवेंट आयोजकों के लिए यह क्यों मायने रखता है

सब-सेकंड लेटेंसी का मतलब है कि श्रोता स्वाभाविक रूप से अनुसरण कर सकते हैं। वे अजीब तरह से ट्रांसलेशन के पकड़ने का इंतज़ार नहीं करते — वे अनुवादित संस्करण को मूल के काफ़ी करीब सुनते हैं कि बातचीत की गति बनी रहे। व्यवहार में, अधिकांश श्रोतागण बताते हैं कि 0.5–1.0 सेकंड का लगातार विलंब एक तकनीकी देरी के बजाय प्राकृतिक ठहराव जैसा महसूस होता है।

225 भाषाओं का मतलब है कि कोई भी श्रोता वंचित नहीं रहता। चाहे इवेंट दर्जन भाषाएँ सेव करे या दो सौ, वही पाइपलाइन बिना अतिरिक्त हार्डवेयर, कर्मचारियों या सेटअप समय के सबको संभालती है।

पाइपलाइन थकान के बिना घंटों लगातार चलती है — मानव दुभाषियों के विपरीत जो सटीकता बनाए रखने के लिए हर 20 मिनट में बदलते हैं। चार घंटे की कॉन्फ़्रेंस जो आठ भाषाओं में अनुवादित होती है, वही पाइपलाइन शुरू से अंत तक चलती है, पूरे समय निरंतर गुणवत्ता के साथ।

लागत भाषा ट्रैक से तय होती है, श्रोतागण के आकार से नहीं। चाहे 5 या 350 लोग फ़्रेंच में सुनें, लागत प्रति घंटा एक भाषा-घंटा है। बिलिंग मॉडल के पूर्ण विवरण के लिए भाषा-घंटा मूल्य निर्धारण मॉडल देखें।

निष्कर्ष

रीयल-टाइम स्पीच ट्रांसलेशन एक तीन-चरण पाइपलाइन है — पहचानें, अनुवाद करें, सिंथेसाइज़ करें — जो एक स्पीकर की आवाज़ को एक सेकंड से कम में सैकड़ों श्रोताओं की भाषाओं में बदलती है। प्रत्येक चरण एक प्रोडक्शन-परीक्षित AI मॉडल है: स्पीच रिकग्निशन के लिए Deepgram, ट्रांसलेशन और स्पीच सिंथेसिस के लिए Google Cloud, वितरण के लिए WebRTC। ये कंपोनेंट प्रायोगिक नहीं हैं। वे हर दिन प्रोडक्शन वातावरण में बड़े पैमाने पर चल रहे हैं।

यह तकनीक कॉन्फ़्रेंस, टाउन हॉल, कक्षाओं और प्रसारणों के लिए पर्याप्त परिपक्व है। यह कोई प्रयोगशाला प्रयोग नहीं है — यह आज इवेंट्स में चल रही है, लगभग $1.30 प्रति भाषा-घंटा की लागत पर सब-सेकंड लेटेंसी के साथ 225 भाषाएँ प्रदान करते हुए।

रीयल-टाइम स्पीच ट्रांसलेशन को काम करते हुए देखना चाहते हैं? एक मुफ़्त सेशन शुरू करें — 49 भाषाओं में से किसी एक में बोलें, आपके श्रोतागण 225 भाषाओं में सुनेंगे। कोई सेटअप नहीं, कोई क्रेडिट कार्ड नहीं।