OpenAI的新模型为何如此重要

上周末,我在一个夏令营举行了婚礼,白天的时候,我们的宾客参加了一系列游戏,这些游戏的灵感来自于我和妻子精心策划的《幸存者》节目。我们在八月份筹划游戏时,就想把其中一个站设置为记忆挑战站,让我们的亲朋好友记住一首诗的部分内容,然后转告队友,让他们用一组木砖重新创作。

我认为,OpenAI的GPT-4o是其当时的领先模型,完全可以提供帮助。我要求它创作一首以婚礼为主题的短诗,并规定每个字母只能出现一定的次数,这样我们就能确保各小组能够用提供的一组木砖重现这首诗。但是GPT-4o却失败得一塌糊涂。该模型一再坚持说,它的诗歌在限制条件下是可行的,尽管事实并非如此。它只有在事后才会正确计算字母数量,同时继续提供不符合指令的诗歌。由于没有时间精心手工制作诗句,我们放弃了写诗的想法,转而挑战客人记住一系列用彩色木砖拼成的图形。(最后,我们的亲朋好友还参加了躲避球、扔鸡蛋和夺旗比赛)。

不过,OpenAI上周发布了一款名为o1的新模型(之前的代号为 “草莓”,更早的名字是Q*),在此类用途上,它超越了GPT-4o

与以往那些非常适合写作和编辑等语言任务的模型不同,OpenAI o1侧重于多步骤 “推理”,即高等数学、编码或其他基于STEM的问题所需的过程类型。据OpenAI称,它使用的是”思维链”技术。该公司在其网站的一篇博文中写道,“该模型学会了识别和纠正自己的错误。它学会了将棘手的步骤分解为更简单的步骤。当目前的方法不起作用时,它学会了去尝试不同的方法。”

OpenAI的测试取得了巨大成功。该模型在竞技编码组织Codeforces提出的问题中排在第89位,并将在美国数学奥林匹克竞赛(该竞赛涵盖几何、数论和其他数学问题)中跻身前500名高中生之列。经过训练,该模型还可以回答从天体物理学到有机化学等学科的博士级问题。

在数学奥林匹克竞赛题中,新模型的准确率为83.3%,而GPT-4o为 13.4%。在博士级问题中,它的平均准确率为78%,而人类专家的准确率为69.7%,GPT-4o的准确率为56.1%。(鉴于这些成就,新模型在为我们的婚礼游戏写诗这一方面表现很出色也就不足为奇了,尽管它还不够完美;它使用的字母T和S比指示的要多得多)。

这有什么关系呢?迄今为止,大型语言模型(Large Language Model,简称LLM)的大部分进展都是由语言驱动的,从而产生了能够解释、分析和生成单词的聊天机器人或语音助手。但是,除了弄错很多事实之外,这些LLM也未能展示出解决药物发现、材料科学、编码或物理学等领域的重要问题所需的技能类型。OpenAI的o1是最早的迹象之一,其表明LLM可能很快就会成为人类研究人员在这些领域真正有用的伙伴。

人工智能研究员、LLM创业公司Fixie的创始人马特·威尔士(Matt Welsh)说,这是一件大事,因为它将人工智能模型中的”思维链” 推理带给了大众。

威尔士说,“推理能力直接体现在模型中,而不必使用单独的工具来实现类似的结果。我的期望是,它将提高人们对人工智能模型的期望值。”

伦敦帝国学院数学与计算机科学副教授Yves-Alexandre de Montjoye说,尽管如此,最好还是谨慎对待OpenAI与”人类水平技能”的比较。很难有意义地比较LLM和普通人是如何从头开始解决数学问题等任务的。

此外,人工智能研究人员还表示,衡量像o1这样的模型”推理”能力有多强,比听起来要难得多。如果它正确回答了某个问题,那是因为它成功地推理出了合乎逻辑的答案吗?还是因为模型中包含了足够的知识?谷歌人工智能研究员弗朗索瓦·肖莱(François Chollet)在X网站上写道,该模型”在开放式推理方面仍有不足”。

最后是价格问题。这种重推理的模型并不便宜。虽然OpenAI的高级订阅中包含了对某些版本模型的访问权限,但开发人员通过应用程序接口使用o1所支付的费用是GPT-4o的三倍——o1中每100万个输入代币需支付15美元,而GPT-4o仅需支付5美元。根据OpenAI的用户调查,新模型也不会成为大多数用户处理语言繁重任务的首选,GPT-4o仍然是更好的选择。

它能解锁什么?在研究人员和实验室有机会、有时间、有预算对新模型进行修补并找出其极限之前,我们不会知道。但这无疑表明,一场能超越人类的模型竞赛已经开始。

原文链接

(机器翻译,轻度译后编辑,仅供参考。)

编辑:李旭媛

审校:章坚

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部