苹果和南加州大学为机器翻译中的性别偏见提出解决方案

在 2024 年 7 月 29 日的一篇论文中，来自苹果公司和南加州大学的研究人员介绍了一种解决机器翻译（MT）系统中性别偏见的新方法。

像研究人员解释的那样，传统的 MT 系统通常默认使用训练数据中统计上最普遍的性别形式，这可能会导致译文歪曲原意，强化社会成见。他们补充说，虽然上下文有时有助于确定适当的性别，但许多情况下缺乏足够的上下文线索，导致翻译中的性别分配不正确。

为了解决这个问题，研究人员开发了一种方法，可以识别源文本中的性别歧义，并提供多种翻译选择，涵盖歧义实体的所有可能性别组合（男性和女性）。

“研究人员说：”我们的工作倡导并提出了一种解决方案，使用户能够从所有同样正确的翻译备选方案中进行选择。

例如，”The secretary was angry with the boss.”（秘书对老板很生气）这句话包含两个实体–秘书和老板，根据每个角色的性别，在西班牙语中可以有四种语法正确的翻译。

研究人员强调，提供反映所有有效性别选择的多种翻译选择是一种 “合理的方法”。

与在句子层面运行的现有方法不同，这种新方法在实体层面运行，可以更细致地处理特定性别的引用。

这一过程首先要分析源句，找出性别指向不明确的实体（如名词或代词）。一旦确定，就会创建两个独立的翻译：一个使用阳性形式，另一个使用阴性形式。最后一步是将这些翻译整合成一个输出结果，并保持目标语言的语法完整性。

要生成这些翻译，可以使用微调 MT 模型或大型语言模型（LLM）。

研究人员强调，如果结合适当的用户界面，他们的方法可以让翻译人员为每个实体选择正确的性别。”他们解释说：”我们的主要技术贡献是一种新颖的半监督解决方案，用于生成与标准 MT 模型无缝集成的替代方案。

他们补充说，这一解决方案不仅有助于新的翻译界面实现精确的性别控制，还能通过自动识别歧义和建议替代译文来帮助人工翻译。

为了鼓励进一步的研究，研究人员开放了五对语言的训练和测试数据集：英语 > 德语、西班牙语、法语、葡萄牙语、俄语和意大利语。

展望未来，他们计划探索其他无性别源语言，如中文、韩语和日语，以及它们所带来的独特挑战。他们还致力于将其方法扩展到包括非二元和中性形式。