只要聊天机器人在,它们就会胡编乱造。这种“幻觉”是人工智能模型工作方式的固有组成部分。然而,对于像谷歌这样大力发展人工智能的公司来说,这却是个大问题,因为它们会使人工智能产生的反应变得不太可靠。
9月12日,谷歌发布了一个工具来解决这个问题。这个工具名为DataGemma,它使用两种方法帮助大型语言模型根据可靠数据对其回答进行事实检查,并以一种更透明的方式向用户引用其来源。
这两种方法中的第一种被称为“检索交错生成”(Retrieval-Interleaved Generation,简称RIG),它起到了某种事实检查器的作用。如果用户向模型提出一个问题,比如“世界上可再生能源的使用量是否增加了?”,模型就会给出一个“初稿”答案。然后,RIG会确定答案草稿中的哪些部分可以与谷歌的Data Commons进行核对,Data Commons是联合国或疾病控制和预防中心等可靠来源提供的大量数据和统计资料的存储库。接下来,该工具会进行检查,并用正确的事实替换一切不正确的原始猜测。它还向用户提供资料来源。
第二种方法通常用于其他大型语言模型,称为“检索增强生成”(Retrieval-Augmented Generation,简称RAG)。比如,给出指令“巴基斯坦在实现全球健康目标方面取得了哪些进展?”该模型就会研究Data Commons的哪些数据可以帮助其回答这个问题,例如有关获得安全饮用水、乙型肝炎免疫接种和预期寿命的信息。有了这些数据,模型就可以在数据的基础上建立自己的答案,并引用其来源。
谷歌Data Commons主管Prem Ramaswami说:“我们的目标是利用Data Commons来增强大型语言模型的推理能力,让它们立足于真实世界的、可以追溯到获取源头的统计数据。”他说,这样做将“创造出更可信、更可靠的人工智能”。
该工具目前只对研究人员开放,但Ramaswami说,经过更多测试后,开放范围可能会进一步扩大。如果它能如期望的那样工作,对于谷歌将人工智能更深入地嵌入其搜索引擎的计划来说,这将大有益处。
不过,也有许多注意事项。首先,这些方法的实用性受限于相关数据是否存在于Data Commons中,而Data Commons与其说是一本百科全书,不如说是一个数据存储库。它可以告诉你伊朗的国内生产总值,但无法确认第一次费卢杰战役的日期或泰勒·斯威夫特发布最新单曲的时间。事实上,谷歌的研究人员发现,在大约75%的测试问题中,RIG方法无法从Data Commons获得任何可用数据。即使Data Commons中确实存在有用的数据,该模型也不一定能提出正确的问题来找到这些数据。
其次是准确性问题。在测试RAG方法时,研究人员发现该模型给出错误答案的比例为6%到20%。与此同时,RIG方法从Data Commons获取正确统计信息的比例仅为58%(不过,与谷歌大型语言模型在不pinging Data Commons时5%到17%的准确率相比,这已经是很大的进步了)。(ping,Packet Internet Groper,因特网包探索器,是一种计算机网络管理应用,该程序通常被用于确认因特网上的一台主机是否可达。)
Ramaswami说,随着DataGemma在越来越多的数据上接受训练,它的准确性将不断提高。初始版本只在大约700个问题上进行了训练,要对模型进行微调,他的团队需要手动检查生成的每个事实。为了进一步改进该模型,研究小组计划将数据集从数百个问题增加到数百万个。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛
审校:章坚