ข้ามไปยังเนื้อหา
กลับไปยัง บทความ
Explainer

การแปลงเสียงพูดแบบเรียลไทม์ทำงานอย่างไร — จากไมโครโฟนสู่ 225 ภาษา

การแปลงเสียงพูดแบบเรียลไทม์แปลงเสียงของผู้บรรยายเป็นเสียงแปลใน 225 ภาษาผ่านไปป์ไลน์ของการจดจำคำพูด การแปลด้วยเครื่อง และการสังเคราะห์เสียง ต่อไปนี้คือวิธีการทำงานของแต่ละขั้นตอน

อัปเดตล่าสุด · 27 พฤษภาคม 2569 อ่าน 9 นาที

การแปลงเสียงพูดแบบเรียลไทม์ดูเหมือนเวทมนตร์: คนหนึ่งพูด และช่วงขณะต่อมาผู้ฟังหลายร้อยคนก็ได้ยินคำพูดเดียวกันในภาษาของตน เบื้องหลังประสบการณ์นั้นคือไปป์ไลน์ซอฟต์แวร์ที่เรียกใช้โมเดล AI สามตัวตามลำดับ ทำการเดินทางจากคำพูดไปสู่เสียงแปลภาษาในเวลาไม่ถึงหนึ่งวินาที

บทความนี้จะพาสำรวจแต่ละขั้นตอนของไปป์ไลน์ดังกล่าว — การจดจำคำพูด การแปลด้วยเครื่อง และการสังเคราะห์เสียง — และอธิบายว่าพวกมันทำงานร่วมกันอย่างไรเพื่อส่งมอบ 225 ภาษาให้แก่ผู้ฟังสด

ขั้นตอนที่ 1: เสียงพูดเป็นข้อความ — บันทึกสิ่งที่ผู้บรรยายพูด

STT แบบสตรีมมิงทำงานอย่างไร

ไปป์ไลน์เริ่มทำงานในวินาทีที่ผู้บรรยายเปิดปาก เบราว์เซอร์จับเสียงจากไมโครโฟนแล้วส่งผ่าน WebRTC — โปรโตคอลเดียวกันกับที่ใช้ในการโทรวิดีโอ — ไปยัง LiveKit SFU (Selective Forwarding Unit) จากนั้น SFU จะส่งเส้นทางเสียงไปยังตัวแปลภาษาที่ทำงานบนเซิร์ฟเวอร์

ตัวแปลไม่รอให้ประโยคเสร็จสมบูรณ์ แต่จะสตรีมเสียงเป็นชิ้นเล็กๆ ไปยัง Deepgram Nova-3 ซึ่งเป็นโมเดลจดจำคำพูดแบบนิวรัล เน็ตเวิร์ก Deepgram ส่งผลการถอดเสียงบางส่วนกลับมาซึ่งจะถูกปรับปรุงเมื่อมีเสียงเพิ่มเติมเข้ามา ประโยคเช่น “สวัสดีตอนเช้าทุกคน ยินดีต้อนรับสู่การประชุม” อาจมาถึงเป็นสามผลลัพธ์บางส่วน: “สวัสดีตอนเช้า” ตามด้วย “สวัสดีตอนเช้าทุกคน ยินดี” แล้วจึงเป็นประโยคเต็ม การปรับปรุงแต่ละครั้งจะอัปเดตการแปลด้านปลายทางแบบใกล้เรียลไทม์

แนวทางสตรีมมิงนี้คือสิ่งที่รักษาเวลาหน่วงให้ต่ำ ระบบไม่ได้เก็บกั้นคำพูดทั้งหมดก่อนจะลงมือ — แต่เริ่มประมวลผลภายในหลัยสิบมิลลิวินาทีหลังจากรับเสียง เมื่อผู้บรรยายจบประโยค ไปป์ไลน์การแปลก็ก้าวหน้าไปไกลแล้ว

การตรวจจับภาษาของผู้บรรยาย

Deepgram Nova-3 รองรับ 49 รหัสภาษาผู้บรรยาย — ตัวแปรภาษา-ภูมิภาคเช่น ภาษาอังกฤษแบบอเมริกัน (en-US) ภาษาโปรตุเกสแบบบราซิล (pt-BR) และภาษาจีนตัวย่อ (zh-CN) ผู้บรรยายเลือกภาษาของตนเมื่อเริ่มเซสชัน สิ่งนี้สำคัญเพราะการจดจำคำพูดที่แม่นยำต้องรู้ภาษาขาเข้า โมเดล “ตรวจจับอัตโนมัติ” มีอยู่จริง แต่เพิ่มเวลาหน่วงและลดความแม่นยำสำหรับคู่ภาษาที่หายาก — ซึ่งเป็นการแลกเปลี่ยนที่ยอมรับไม่ได้ในสถานการณ์สด

สำหรับเคล็ดลับเชิงปฏิบัติเกี่ยวกับการส่งเสียงที่สะอาดที่สุดเข้าสู่ไปป์ไลน์ — การเลือกไมโครโฟน การวางตำแหน่ง และอะคูสติกของห้อง — ดูคู่มือของเราเกี่ยวกับการเลือกไมโครโฟนที่เหมาะสม

ขั้นตอนที่ 2: การแปลด้วยเครื่อง — เปลี่ยนความหมายข้ามภาษา

เอนจินการแปล

เมื่อขั้นตอนแปลงเสียงเป็นข้อความสร้างผลถอดเสียงแล้ว ข้อความจะถูกส่งต่อไปยังการแปลด้วยเครื่อง เอนจินขึ้นอยู่กับแผนของผู้บรรยาย:

  • แผนฟรี: Google Cloud NMT (Neural Machine Translation) — รวดเร็วและเชื่อถือได้สำหรับคู่ภาษาหลัก NMT เป็นโมเดลที่ผ่านการพิสูจน์ในการใช้งานจริง ถูกฝึกด้วยประโยคคู่ขนานหลายพันล้านประโยค และจัดการการแปลโดยตรงด้วยเวลาหน่วงต่ำ
  • แผนเสียเงิน (Starter, Pro, Max): DualModelTranslator — ใช้ Google Cloud Translation LLM สำหรับประมาณ 100 ภาษาที่โมเดลภาษาขนาดใหญ่ให้ผลลัพธ์ที่เป็นธรรมชาติและตระหนักถึงบริบทมากกว่า โดยย้อนกลับไปใช้ NMT สำหรับคู่ภาษาที่เหลือ ข้อดีของ LLM เป็นของจริง: มันจัดการกับสำนวน การเปลี่ยนระดับภาษา คำศัพท์เฉพาะด้าน และบริบทระยะไกลได้ดีกว่าวิธีทางสถิติ สำหรับคู่ภาษาที่ง่ายกว่า — เช่น สเปนเป็นโปรตุเกส — NMT เร็วกว่าและแม่นยำพอกัน ระบบจึงส่งไปยังเส้นทางที่เหมาะสม

รองรับ 225 ภาษาผลลัพธ์

ระบบรองรับ 225 ภาษาผลลัพธ์ แบ่งออกเป็นสองระดับ:

  • 51 ภาษาได้รับเสียงเต็มรูปแบบ ข้อความที่แปลแล้วจะถูกสังเคราะห์เป็นคำพูดผ่าน Google Cloud TTS และส่งมอบเป็นสตรีมเสียงสด
  • 174 ภาษาเพิ่มเติมได้รับคำบรรยายแบบข้อความสด การแปลเป็นการแปลจริง — ไม่ใช่การถอดเสียง — แต่ส่งมอบเป็นข้อความเลื่อนแทนเสียง

ภาษาจะถูกเปิดใช้งานตามความต้องการ เมื่อผู้ฟังเข้าร่วมเซสชันและเลือกภาษาของตน ไปป์ไลน์จะสร้างสตรีมการแปลสำหรับคู่ภาษาต้นทาง-ปลายทางนั้นโดยเฉพาะ หากไม่มีใครเลือกฟินแลนด์ ก็จะไม่มีการสร้างการแปลภาษาฟินแลนด์ — และไม่มีการใช้ชั่วโมง-ภาษาสำหรับภาษานั้น ดูรายการภาษาที่รองรับทั้งหมดสำหรับความครอบคลุมของเสียงและคำบรรยาย

เวลาหน่วงในขั้นตอนการแปล

การแปลด้วยเครื่องเป็นขั้นตอนที่เร็วที่สุดในไปป์ไลน์:

  • NMT: โดยทั่วไป 50–150 ms ต่อชิ้นส่วนประโยค
  • LLM: โดยทั่วไป 100–300 ms ต่อชิ้นส่วน — คุณภาพสูงกว่าสำหรับข้อความที่ซับซ้อน ช้ากว่าเล็กน้อย

เนื่องจากสถาปัตยกรรมแบบสตรีมมิงส่งผลถอดเสียงบางส่วนเข้าสู่การแปลทันทีที่ได้รับ ระบบจึงไม่รอประโยคเต็มก่อนเริ่มแปล ผลลัพธ์บางส่วนจะถูกปรับปรุงเมื่อมีบริบทเพิ่มเติมพร้อมใช้ ซึ่งหมายความว่าผู้ฟังจะได้รับกระแสเนื้อหาที่แปลแล้วอย่างต่อเนื่อง แทนที่จะเป็นชุดข้อมูลแบบแยกส่วน

ขั้นตอนที่ 3: ข้อความเป็นเสียงพูด — มอบเสียงให้การแปล

การสังเคราะห์ TTS ทำงานอย่างไร

สำหรับ 51 ภาษาที่มีเสียง ข้อความที่แปลแล้วจะถูกส่งไปยัง Google Cloud TTS โมเดลสร้างคลื่นเสียงที่ฟังดูเป็นธรรมชาติในภาษาปลายทาง แต่ละภาษามีโมเดลเสียงของตัวเองที่ปรับแต่งตามสัทวิทยาของภาษานั้น — จังหวะ การออกเสียง และรูปแบบพยัญชนะ-สระที่ทำให้เสียงพูดฟังดูเป็นธรรมชาติแทนที่จะเป็นเสียงเครื่องจักร

เสียงที่สังเคราะห์แล้วจะถูกเผยแพร่เป็นเส้นทางเสียงใหม่บน LiveKit SFU แต่ละภาษาจะได้รับเส้นทางของตัวเองที่เป็นอิสระจากภาษาอื่น

การส่งมอบเสียงให้ผู้ฟัง

กลไกการส่งมอบคือ WebRTC — โปรโตคอลเดียวกันกับที่ใช้สำหรับการโทรวิดีโอ ซึ่งได้รับการปรับให้เหมาะสมสำหรับสื่อแบบเรียลไทม์ที่มีเวลาหน่วงต่ำ ผู้ฟังแต่ละคนจะสมัครรับข้อมูลเส้นทางเสียงที่ตรงกับภาษาที่ตนเลือก ไม่มีการผสมผสาน ไม่มีการสลับ — ผู้ฟังได้ยินสตรีมต่อเนื่องในภาษาของตนตั้งแต่ต้นจนจบ

ผู้ฟังสามารถเข้าร่วมจากโทรศัพท์ แท็บเล็ต หรือแล็ปท็อป สำหรับประสบการณ์ผู้ฟังแบบเต็ม — ผู้ฟังสแกน QR code อย่างไร เลือกภาษาอย่างไร และเชื่อมต่ออย่างไร — ดูวิธีการทำงานของการแปลผ่าน QR code

ไปป์ไลน์ทั้งหมดในตัวเลข

ขั้นตอนไปป์ไลน์เทคโนโลยีเวลาหน่วงต้นทุนต่อชั่วโมง-ภาษา
เสียงพูดเป็นข้อความDeepgram Nova-3 (สตรีมมิง)200–400 ms~$0.46
การแปลGoogle Cloud NMT / Translation LLM50–300 ms~$0.02–0.08
ข้อความเป็นเสียงพูดGoogle Cloud TTS100–200 ms~$0.79
การส่งมอบเสียงWebRTC ผ่าน LiveKit SFU<100 ms$0 (self-hosted)
ต้นทางถึงปลายทาง350 ms–1 วิ~$1.27–$1.33

เวลาหน่วงสะสมอยู่ที่ไหน

เวลาหน่วงตั้งแต่ต้นทางถึงปลายทางมาจากสามแหล่ง:

  1. ขาเข้าเครือข่าย — เวลาที่เสียงเดินทางจากเบราว์เซอร์ของผู้บรรยาย ผ่าน LiveKit SFU ไปยังตัวแปลภาษา ขึ้นอยู่กับการเชื่อมต่ออินเทอร์เน็ตของผู้บรรยาย แต่โดยทั่วไปอยู่ต่ำกว่า 100 ms ในการเชื่อมต่อที่เสถียร
  2. การประมวลผล — STT + การแปล + TTS นี่คือส่วนใหญ่ของความล่าช้า: ประมาณ 350–900 ms ขึ้นอยู่กับคู่ภาษาและว่าระบบใช้การแปลแบบ NMT หรือ LLM
  3. ขาออกเครือข่าย — เวลาที่เส้นทางเสียงที่แปลแล้วเดินทางจาก SFU ไปยังอุปกรณ์ของผู้ฟังแต่ละคน โดยทั่วไปอยู่ต่ำกว่า 100 ms เช่นกัน

เวลาหน่วงรวมตั้งแต่ต้นทางถึงปลายทางสำหรับภาษาที่มีเสียงโดยทั่วไปอยู่ระหว่าง 0.5 ถึง 1.0 วินาที ภาษาที่มีคำบรรยายแบบข้อความจะข้ามขั้นตอน TTS ทั้งหมด จึงมาถึงเร็วกว่า — แต่ไม่มีเสียงสังเคราะห์ สำหรับการเปรียบเทียบเชิงลึกระหว่างการแปลด้วย AI กับการล่ามภาษามนุษย์แบบดั้งเดิม ดูการแปลเรียลไทม์เทียบกับการล่ามแบบพร้อมกัน

ทำไมสิ่งนี้จึงสำคัญสำหรับผู้จัดงาน

เวลาหน่วงต่ำกว่าหนึ่งวินาทีหมายความว่าผู้ฟังสามารถติดตามได้อย่างเป็นธรรมชาติ พวกเขาไม่ต้องรออย่างอึดอัดให้การแปลตามทัน — พวกเขาได้ยินเสียงแปลที่ใกล้เคียงกับต้นฉบับพอที่จะรักษาจังหวะของการพูดไว้ได้ ในทางปฏิบัติ ผู้ฟังส่วนใหญ่รายงานว่าความล่าช้าคงที่ที่ 0.5–1.0 วินาทีรู้สึกเหมือนเป็นการหยุดชั่วขณะตามธรรมชาติ มากกว่าที่จะเป็นความล่าช้าทางเทคนิค

225 ภาษาหมายความว่าไม่มีผู้ฟังคนใดถูกทอดทิ้ง ไม่ว่างานจะให้บริการภาษาเพียงโหลเดียวหรือสองร้อยภาษา ไปป์ไลน์เดียวกันจัดการทั้งหมดโดยไม่ต้องใช้อุปกรณ์เพิ่มเติม บุคลากรเพิ่มเติม หรือเวลาตั้งค่า

ไปป์ไลน์ทำงานต่อเนื่องเป็นเวลาหลายชั่วโมงโดยไม่เหนื่อยล้า — ต่างจากล่ามภาษามนุษย์ที่ต้องสลับกันทุก 20 นาทีเพื่อรักษาความแม่นยำ การประชุมสี่ชั่วโมงที่แปลเป็นแปดภาษาจะเรียกใช้ไปป์ไลน์เดียวกันตั้งแต่ต้นจนจบ ด้วยคุณภาพที่สม่ำเสมอตลอดทั้งงาน

ต้นทุนขับเคลื่อนโดยเส้นทางภาษา ไม่ใช่ขนาดของผู้ฟัง ไม่ว่าจะมี 5 หรือ 350 คนฟังภาษาฝรั่งเศส ต้นทุนคือหนึ่งชั่วโมง-ภาษาต่อชั่วโมง สำหรับรายละเอียดทั้งหมดของโมเดลการเรียกเก็บเงิน ดูโมเดลราคาตามชั่วโมง-ภาษา

บทสรุป

การแปลงเสียงพูดแบบเรียลไทม์เป็นไปป์ไลน์สามขั้นตอน — จดจำ แปล สังเคราะห์ — ที่เปลี่ยนเสียงของผู้บรรยายหนึ่งคนเป็นหลายร้อยภาษาของผู้ฟังในเวลาไม่ถึงหนึ่งวินาที แต่ละขั้นตอนเป็นโมเดล AI ที่ผ่านการพิสูจน์ในการใช้งานจริง: Deepgram สำหรับการจดจำคำพูด, Google Cloud สำหรับการแปลและการสังเคราะห์เสียง, WebRTC สำหรับการส่งมอบ องค์ประกอบเหล่านี้ไม่ใช่การทดลอง พวกมันทำงานในสเกลใหญ่ในสภาพแวดล้อมการผลิตทุกวัน

เทคโนโลยีนี้มีความพร้อมเพียงพอสำหรับการประชุม การประชุมเมือง ห้องเรียน และการถ่ายทอดสด นี่ไม่ใช่การทดลองในห้องปฏิบัติการ — มันกำลังทำงานในงานต่างๆ ในปัจจุบัน ส่งมอบ 225 ภาษาด้วยเวลาหน่วงต่ำกว่าหนึ่งวินาที ในราคาประมาณ $1.30 ต่อชั่วโมง-ภาษา


อยากเห็นการแปลงเสียงพูดแบบเรียลไทม์ใช้งานจริงหรือไม่ เริ่มเซสชันฟรี — พูดในภาษาใดก็ได้จาก 49 ภาษา ผู้ฟังของคุณจะได้ยินใน 225 ภาษา ไม่ต้องตั้งค่า ไม่ต้องใช้บัตรเครดิต