近一个世纪以来,会议、外交简报和董事会会议一直依赖同声传译。人类译员坐在隔音同传厢中,通过耳机听取发言者的讲话,并通过麦克风进行实时翻译。代表们通过接收耳机收听。这套系统行之有效——自纽伦堡审判以来一直如此——但它所带来的成本和限制,大多数组织在接受时并未质疑是否存在替代方案。
实时人工智能翻译已经超越了 novelty 阶段。语音识别引擎如今能够处理数十种语言变体,流式传输准确率超过95%。神经机器翻译在主要语言对上已达到接近人类的流畅度。文本转语音合成技术可在50多种语言中生成自然流畅的语音输出。从语音到翻译音频的延迟通常低于一秒。
本文从活动组织者最关心的维度对两种方法进行比较:成本、设置、语言覆盖、质量和可扩展性。
各系统的工作原理
同声传译需要经过培训的专业人员——通常每种语言配备两名译员,每20-30分钟轮换一次,以防止因疲劳导致的错误。场地需要安装隔音同传厢,通过会议系统传输音频,并向代表分发接收耳机。译员通常会在活动前几天收到准备材料(演讲稿、术语表、议程)。
实时人工智能翻译用软件流水线取代了译员链:语音转文本捕获发言者的话语,机器翻译将其转换为目标语言,文本转语音将翻译后的音频传递给听众。听众通过浏览器加入——无需分发耳机,无需安装同传厢。发言者获得一个短代码和二维码,与在场人员分享。
成本比较
| 成本因素 | 同声传译 | 实时人工智能翻译 |
|---|---|---|
| 译员 | 每名译员每天500–1,200美元,每种语言2名 | 0美元(软件处理所有语言) |
| 设备租赁 | 同传厢、接收器、布线:3,000–15,000美元 | 0美元(与会者使用自己的手机) |
| 搭建人工 | 半天安装+现场技术人员 | 几分钟——无需物理基础设施 |
| 每种语言成本 | 线性增长:每增加一种语言增加全部译员成本 | 每种语言的边际成本接近零 |
| 典型2天、3种语言活动 | 8,000–25,000美元 | 0–599美元(SaaS订阅) |
随着语言数量的增加,成本差异急剧扩大。在同声传译中增加第四种语言意味着需要两名额外译员、另一个同传厢和另一个音频通道。而在人工智能翻译系统中增加第四种语言,除了平台的语言小时费率外,不产生任何额外成本。
设置与后勤
同声传译需要提前规划。同传厢需要订购、运输和安装。音频路由需要技术人员。接收耳机需要充电、测试、分发、回收和盘点。对于一场500人的会议,仅耳机分发就可能占用45分钟的签到时间。
实时翻译完全消除了物理后勤工作。发言者从浏览器启动会话,获取二维码,并将其投影到屏幕上或纳入议程。听众扫描二维码,选择自己的语言,即可开始收听。无需任何硬件接触场地的基础设施。
对于在借用空间——酒店宴会厅、大学阶梯教室、政府会议厅——举办活动的组织来说,这一差异尤为重要,因为在这些场所安装同传厢可能不可行或未被允许。
语言覆盖
同声传译受限于译员的可用性。为常见语言对(英语–法语、英语–西班牙语)找到合格的译员相对容易。而为不常见的语言对(英语–高棉语、芬兰语–日语)找到译员则需要提前数周预订,并支付高额费用。
实时人工智能翻译支持超过200种输出语言——51种具有完整语音合成,174种支持实时文字字幕。系统无需提前”预订”语言。听众在加入时选择自己的语言,流水线即刻启动。
对于代表们使用10种、15种甚至20种语言的多边组织来说,这种覆盖差异具有决定性意义。出于后勤原因,传统传译最多只能覆盖4-6种语言。而人工智能翻译可以同时处理所有语言。
翻译质量
人类译员在特定场景中优于人工智能:高度技术性的医学会议、精确性具有法律约束力的法律程序,以及语气和细微差别至关重要的情感敏感型外交交流。经验丰富的译员还能适应发言者的个人特点——纠正口误、平滑不流利的表达、保持适当的语体。
人工智能翻译在一致性和耐力方面表现出色。它不会在20分钟后疲劳。不会因为时差而听错数字。在第180分钟产生的翻译质量与第1分钟完全相同。对于会议、市政厅会议、讲座和广播——内容为信息性而非法律性的场合——这种一致性往往比轮换的译员产生更好的效果。
差距正在缩小。付费层的人工智能翻译现在使用大型语言模型来提供更高质量的输出,特别是对于传统统计模型产生生硬或不准确结果的语言。在大多数现场活动场景中,人工智能翻译的质量已经达到或超过了观众的期望。
可扩展性
同声传译的扩展与观众规模呈线性关系。每增加一名听众需要一个接收耳机。每增加一种语言需要另一对译员和另一个同传厢。一场1,000人、8种语言的活动需要16名译员、8个同传厢和1,000副耳机——还要加上管理这一切的后勤工作。
实时翻译随网络扩展。听众通过自己的设备经由Wi-Fi或蜂窝网络连接。没有需要分发的耳机,没有需要安装的同传厢,没有需要安排的译员。限制因素从物理后勤转向网络容量——大多数现代场馆已经解决了这个问题。
如何选择
在以下情况选择同声传译:
- 活动具有法律或外交后果,需要经过认证的人类精确度
- 仅需2-3种语言且有合格的译员可用
- 场地已安装永久性传译基础设施
- 法规或合同要求规定必须使用人类译员
在以下情况选择实时人工智能翻译:
- 需要超过4种语言
- 活动时间紧迫,设置必须最小化
- 预算限制使专业传译不切实际
- 观众规模或场地后勤使耳机分发变得困难
- 内容为信息性的(会议、讲座、广播、市政厅会议)
在以下情况考虑混合方法:
- 关键环节使用人类译员处理高风险内容
- 分组会议和溢出会议室使用人工智能翻译以节约成本
- 人工智能翻译作为译员取消或同传厢故障时的备用方案
发展趋势
人工智能翻译质量正在按季度周期提升。语音识别准确率随每次模型发布而提高。翻译流畅度受益于同样推动通用文本生成改进的大型语言模型进步。文本转语音的自然度在主要语言上正接近人类水平。
同声传译质量受限于人为因素——疲劳、可用性,以及培训足够数量的合格译员以满足全球需求的内在瓶颈。联合国报告称,不常见语言对的译员持续短缺。
对于大多数现场活动而言,问题不再是人工智能翻译是否足够好。而是活动的具体要求是否值得人类传译的成本和后勤投入。在越来越多的案例中,答案是否定的。
准备好为您的下一场活动尝试实时翻译了吗?开始免费会话 — 无需信用卡,无需设置,200多种语言随时可用。