使文学机器翻译更接近人类品质的研究尝试

This image has an empty alt attribute; its file name is er24_069_headerart_1600x900-1024x576.jpg维尔博士B.J.Woodstein 是教授、翻译家也是作家,他在 2024 年 4 月的 SlatorPod 上强调了人工干预在文学翻译中的关键作用–尤其是在处理超越人工智能或机器翻译(MT)能力的语言细微差别和文化概念方面–奥尔堡大学和格罗宁根大学的研究人员着手改进文学 MT,以更好地保留原文的风格和创造性元素。

在 2024 年 8 月 30 日发表的研究论文中,研究人员解释说 ​词汇多样性–文本中使用的独特词汇的范围–在文学作品中非常重要,”在文学作品中,不仅要看写了什么,还要看怎么写”。

然而,他们注意到,MT 系统产生的译文往往比人工翻译产生的译文 “词汇贫乏”,导致文体细微差别的丧失。

为解决这一问题,他们提出了一种方法,通过对候选翻译进行有针对性的重新排序,恢复 MT 中 “丢失 “的词汇多样性。他们的方法不是一成不变地增加所有文本的词汇多样性,而是根据原作的多样性调整恢复过程。

模式识别

首先,MT 系统会为给定的源文本生成多个翻译假设。然后,分类器会访问这些假设,估计每个假设与目标语言原文相似的可能性。此外,每篇原文都会被赋予一个词汇多样性分值,以反映其词汇的丰富程度,这也是重新排序过程中的一个因素。

翻译假设根据其成为原文的概率进行排序,最终选择受原文的词汇多样性得分影响。这就意味着,如果一个翻译假设的可能性很高,但它与所需的词汇丰富度不匹配,那么这个翻译假设就可能被绕过。

输出结果是一个翻译假设,它能在原文可能性与词汇多样性得分之间取得最佳平衡,确保译文既能表达意思,又能反映原文丰富的文体。

研究人员强调,他们的方法 “与模型无关”。只要 MT 系统能够为给定文本生成多个候选译文,就可以使用重新排序法来改进最佳译文的选择。

更接近人类品质

为了评估这种方法的有效性,研究人员在 31 本英语到荷兰语的书籍翻译中进行了测试,采用了各种指标,包括 BLEU 和 COMET 分数来衡量翻译的准确性,以及词汇多样性分数来评估词汇的丰富性。

他们将量身定制的重新排序方法与虚词 MT 和人类翻译进行了比较,发现量身定制的重新排序方法产生的译文词汇多样性更接近人类翻译。

作者Esther Ploeger、Huiyuan Lai、Rik van Noord 和 Antonio Toral

<ahref=”https: slator.com research-attempts-to-bring-literary-machine-translation-closer-to-human-quality”>

原⽂链接
3914

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部