字节跳动推出“类人”语音翻译系统

2024年7月31日，字节跳动的跨语言代理团队展示了一个旨在提供“高质量”和“类人”同步语音翻译（SiST）的系统。

研究人员强调了SiST的复杂性，称其为“翻译领域最具挑战性的任务之一”。尽管学术和商业SiST模型取得了显著进步，但他们承认，“翻译质量仍然远远不能令人满意”，这凸显了对更有效解决方案的需求。

受大语言模型（LLMs）在机器翻译（MT）和语音翻译中取得成功的启发，字节跳动团队利用LLMs来应对SiST挑战。他们的解决方案是通过系统执行各种操作来执行同声传译（“CLASI”）的跨语言代理。

CLASI通过结构化的五步流程运行，首先是处理输入的音频数据。为了模仿专业人工口译员，CLASI采用了一种“数据驱动策略学习”方法，人工口译员通常会根据自然停顿、标点符号和含义将句子分解成更小的“语义块”。

通过对人类标注的语音数据进行训练，CLASI学会了如何识别语音中的自然停顿，从而制定出一套强大的“读写策略”，指导CLASI在语音过程中何时进行听（读），何时进行译（写）。

第二步，CLASI利用多模式检索器从外部知识库中获取相关信息。

第三步是从上一轮存储器中检索上下文，该存储器存储了以前翻译的数据。研究人员表示，通过将从外部知识库检索到的信息和翻译记忆库中的上下文添加到LLM代理的提示中，CLASI动态地整合了相关知识，从而显著提高了翻译的准确性和连贯性。

在处理输入和检索相关信息后，CLASI会生成转录（如有需要）、翻译输出和一个时间戳，该时间戳会显示当前翻译回合的结束时间。通过该时间戳，系统可以确定下一轮音频输入的开始时间。然后，系统会用新的翻译更新内存，确保为未来处理保留上下文。然后从第一步开始循环，处理下一个语音片段。

研究人员说：“在LLM的支持下，我们的方法可以通过考虑输入音频、历史语境和检索信息来生成容错翻译。”

为了评估CLASI的性能，研究小组开发了一种名为“VIP”（多功能口译性能）的新评估指标，用于衡量在同声传译/口译过程中能够成功传达给听众的信息量。

研究人员认为，VIP更好地反映了SiST系统在真实世界场景中的性能。他们将CLASI与其他顶级同声传译系统（包括商用系统和开源系统）进行了对比测试，发现CLASI的表现“明显优于”这些系统。

CLASI在中译英和英译中的VIP评分分别达到81.3%和78.0%。相比之下，最先进的商业或开源系统的VIP分数分别只有35.4%和41.6%。研究人员说，即使在极具挑战性的数据集上，其他系统的VIP分数低于13%，CLASI的VIP分数也保持在70%。

研究人员甚至表示，“这些结果接近人类口译员的表现，他们的VIP通常达到80%左右”。

研究人员认为，该系统可应用于各种场景，促进跨语言交流，如国际会议和日常会议，使与会者能够理解不同语言的发言。

研究人员补充说，CLASI还可以作为系统级翻译模块，通过提供实时翻译，提升用户观看外语视频的体验。

在在线游戏领域，CLASI可以帮助使用不同语言的玩家之间进行交流，营造更具包容性的游戏环境。此外，研究人员称，CLASI的“人类平等性能”可以提高专业人工翻译的效率。

“研究人员总结道：”凭借CLASI强大的翻译能力，我们相信它能进一步实现跨语言交流，让全世界不同地方的人们无缝沟通。

展望未来，字节跳动团队计划扩展CLASI，以支持更多语言，包括低资源语言。

已于GitHub提供了演示和人工标注的测试集。

（机器翻译，轻度译后编辑，仅供参考。）

编辑：陈驭格