研究人员结合DeepL和GPT-4以自动化（研究）问卷翻译

在2024年7月30日的一篇研究论文中，来自阿尔托大学的Otso Haavisto和Robin Welsch展示了一个网络应用程序，旨在简化针对不同语言和文化调整问卷的过程。

本工具旨在协助研究者进行跨文化研究，提高问卷改编的质量和效率，同时促进研究实践的公平性。

Haavisto和Welsch强调，翻译问卷通常成本高昂，而且“资源密集”，需要多个独立的翻译人员和广泛的验证过程。根据作者的说法，这种复杂性导致了研究中的不平等，特别是在非英语国家和低收入地区，那里获得高质量问卷的机会有限。

在问卷翻译中，保持语义相似性是保证译文与原文意义一致的关键。正如作者所指出的，“语义相似性比逐字匹配更重要。”根据作者的说法，文化差异和口语化表达会使这一过程进一步复杂化，使准确的翻译变得困难。

为了应对这些挑战，他们开发了一个web应用程序，允许用户翻译问卷，编辑翻译，回译到源语言以与原文进行比较，并接受由大语言模型(LLM)生成的翻译质量评估。

该工具集成了用于初始翻译的DeepL和用于评估和建议改进的GPT-4。使用DeepL的决定是基于其“在翻译科学文本方面的可靠输出和有希望的结果”，作者说这对研究问卷的准确性至关重要。

他们说：“我们着手开发一个问卷翻译工具的原型，它将利用LLMs在自然语言处理任务中的多功能性，为进行跨文化研究的研究人员带来好处。”

Haavisto和Welsch通过两项在线研究测试了该工具的有效性:一项涉及10名参与者测试英语-德语对，另一项涉及20名参与者测试英语-葡萄牙语对。根据作者的说法，这两项研究都显示了“在问卷翻译过程中采用法学硕士的有希望的结果”

研究结果表明，在GPT-4生成的质量分数的补充下，机器翻译的翻译质量和语义相似度与传统翻译相当。参与者还发现GPT-4生成的建议“中等帮助”，并准确地代表了翻译质量。

Haavisto和Welsch还指出，LLMs生成的翻译质量评估可以帮助研究人员识别和解决翻译中的特定上下文问题，并强调“这是朝着更公平的基于人工智能的问卷研究迈出的第一步。”

该工具目前支持英语、德语、葡萄牙语和芬兰语的翻译——尽管芬兰语尚未经过测试。原型的代码在GitHub上是公开的，欢迎大家进一步探索和贡献。

（机器翻译，轻度译后编辑，仅供参考。）

编辑：陈驭格