新研究用专业医学翻译模型挑战 LLM 的主导地位

正如 Unbabel 首席技术官若昂·格拉萨（João Graca）在最近的 Slator 播客中提到的那样，虽然大型语言模型（LLM）正在迅速取代神经机器翻译（NMT）模型，但在某些利基领域，神经机器翻译仍在坚持。

2023 年 12 月 Logrus Global、Ocean Translations 和曼彻斯特大学的一项研究发现，在临床领域微调小型语言模型所产生的翻译效果明显优于 LLM，继此发现之后，2024 年 7 月 26 日又发表了一项新研究。

在这项最新研究中，专门从事人工智能模型培训的人工智能研究和基础设施公司 AI Amplified 的 Bunyamin Keles、Murat Gunay 和 Serdar Caglar 进一步探索了量身定制的 NMT 模型在医学翻译中的作用。具体来说，AI Amplified 团队利用 MarianMT 基础模型开发了为医学文本量身定制的小型 NMT 模型。

与 2023 年 12 月的研究不同，他们将 LLM 纳入循环，以创建合成训练数据。穆拉特·古奈在接受 Slator 采访时说：“我们发现，LLM 在生成合成数据方面特别有效，这对训练我们的模型非常有价值。”他们的模型是在来自科学文章、临床文件和其他医学文本的合成和真实医学数据上训练出来的，有六种语言版本：英语、德语、土耳其语、法语、罗马尼亚语、西班牙语和葡萄牙语。

作者认为，他们的在“LLM 在回路中”方法与在高质量、特定领域数据上的微调相结合，使这些专门的 NMT 模型的性能优于通用模型，甚至优于一些领先的 LLM。

他们指出，参数越多的模型并不一定能得到越好的质量分数，并强调数据质量和微调过程往往比模型大小本身更重要。他们强调说：“LLM 不一定（比 NMT）更好，（……）数据集和训练的质量也至关重要。”

小型专业模型优于 LLM 模型

在所有语言对中，作者将其模型的翻译质量与谷歌翻译、DeepL 和 GPT-4-Turbo 进行了比较。对于英德医学翻译模型，他们将比较范围扩大到了 Claude-3。

在多个自动评估指标（包括 BLEU、METEOR、ROUGE 和 BERT）以及作为“公正评委”的 ChatGPT 和 Claude AI 的评估中，他们的模型都优于谷歌翻译、DeepL 和 GPT-4-Turbo。他们选择了自动评估和基于 LLM 的评估，而不是人工评估，“以减轻时间和成本的限制”，同时还能获得“对翻译质量的宝贵见解”。

他们说：“分析（……）表明，我们的模型取得了非常令人满意且具有统计学意义的结果。”不过，他们仍致力于不断改进数据集和模型，以取得更高的性能分数。

为此，他们还强调了“共享更多开源基准测试数据”的必要性。为了使这一领域的评估标准化，他们引入了一个新的医学翻译测试数据集。

他们的模型可在其网站上进行测试，用户可以浏览演示译文，亲眼目睹模型的功能。

零错误医学翻译

作者的主要目标是实现“医学文本的零错误翻译”，并认识到错误翻译在医疗环境中可能带来的潜在风险。他们说：“病人和医生之间的翻译错误会危及病人的安全。”

尽管已经有了一些不同语言的医学翻译模型，但他们指出，鉴于医学领域“对高端翻译服务的持续需求”，医学领域“对医学文本翻译模型的需求仍然很大”。

他们还强调，医学翻译对于弥合沟通鸿沟“至关重要”，突出了机器翻译在医疗保健领域“不可或缺”的作用。

这些模型是为卫生保健专业人员和各种利益相关者设计的，旨在“为全球卫生界做出重大贡献”，为“改进知识传播和改善医疗成果”铺平道路。

作者总结道：“这项研究（……）为未来与医疗相关的人工智能发展铺平了道路。”

（机器翻译，轻度译后编辑，仅供参考）

编辑：王宇婷

原文链接

资讯总结：虽然大型语言模型（LLM）正在迅速取代神经机器翻译（NMT）模型，但在某些利基领域，神经机器翻译仍在坚持。AI Amplified 团队利用 MarianMT 基础模型开发了为医学文本量身定制的小型 NMT 模型，他们的在“LLM 在回路中”方法与在高质量、特定领域数据上的微调相结合，使这些专门的 NMT 模型的性能优于通用模型，甚至优于一些领先的 LLM。

小型专业模型优于 LLM 模型

零错误医学翻译

发表评论 取消回复

发表评论取消回复