研究人员结合 DeepL 和 GPT-4 实现（研究）问卷翻译自动化

在2024年7月30日的一篇研究论文中，阿尔托大学的奥托·哈维斯托（Otso Haavisto）和罗宾·威尔施（Robin Welsch）讲到了一款网络应用程序，该程序旨在简化改编问卷以适应不同语言和文化的过程。

该工具旨在协助研究人员开展跨文化研究，提高问卷改编的质量和效率，同时促进公平的研究实践。

哈维斯托和威尔施强调道，翻译调查问卷通常成本高昂且“资源聚集”，需要多名独立译员和大量的验证过程。作者认为，这种复杂性带来了研究中的不平等，尤其是在获得高质量问卷机会有限的非英语国家和低收入地区。

在问卷翻译中，保持语义相似性至关重要，以此才能确保翻译版本与原始版本具有相同的含义。
正如作者所指出的：“语义相似性比逐字匹配更重要。”此外，作者还认为，文化的细微差别和口语化的表达会使这一过程更加复杂，难以实现翻译的准确性。

为了应对这些挑战，他们开发了一个网络应用程序，允许用户翻译问卷、编辑译文、回译为源语以便与原文进行比较，并由大型语言模型 (LLM) 进行翻译质量评估。

该工具集成了DeepL（用于初始翻译）和GPT-4（用于评估和提出改进建议）。使用DeepL是因为它“在翻译科学文本方面具有可靠的输出和良好的效果”，作者说，如此特点对于研究问卷的准确性极其重要。

他们表示：“我们打算开发一个问卷翻译工具的原型，该工具会利用大型语言模型（LLM）在自然语言处理任务上的多功能性，以帮助进行跨文化研究的人员。”

哈维斯托和威尔施通过两项在线研究测试了该工具的有效性：一项是由10名参与者测试英语-德语，另一项是由20名参与者测试英语-葡萄牙语。作者称，两项研究都表明，“在问卷翻译过程中采用大型语言模型（LLM）取得的结果前景不错”。

研究表明，如果辅以GPT-4生成的质量评分作为补充，机器翻译的译文质量和语义相似性可与传统翻译相媲美。参与者还发现，GPT-4生成的建议“比较有帮助”，并能准确反映翻译质量。

哈维斯托和威尔施还指出，由LLM生成的翻译质量评估可以帮助研究人员发现和解决翻译中的特定语境问题，并强调“这是在人工智能的推动下，基于问卷研究向更加公平的方向迈出的第一步”。

该工具目前支持英语、德语、葡萄牙语和芬兰语的翻译，但芬兰语尚未经过测试。该原型代码已在 GitHub 上公开发布，欢迎大家的积极探索和贡献。

（机器翻译，轻度译后编辑，仅供参考）

编辑：王宇婷

资讯总结：为了应对挑战，他们开发了一个网络应用程序，该程序旨在简化改编问卷以适应不同语言和文化的过程，旨在协助研究人员开展跨文化研究，提高问卷改编的质量和效率，同时促进公平的研究实践。