OpenAI 发布备受期待的 GPT-o1 模型

OpenAI 的 o1-preview 模型在人类智能和编码技能的基准上得分很高,但它有时也会故意提供错误的答案。

OpenAI 发布了下一代大语言模型的预告,其性能优于以前的模型,但也有一些注意事项。

在推出这一新模型时,OpenAI 强调了它在完成各种人类任务中的优异表现。该模型在 Codeforces 举办的编程竞赛中得分第 89 个百分位,在国际数学奥林匹克资格赛中回答了 83% 的问题.相较之下,GPT-4o 的正确率只有 14%。

OpenAI 首席执行官 Sam Altman 称 O1-Preview 和 O1-mini 型号是”新范式的开始:可以进行通用领域的复杂推理。”但他补充说,o1 仍然存在缺陷,仍然有限,而且在长时间使用后并不像使用之初那般令人惊艳。

当用户提问时,该模型使用思维链技术,模仿人类的思维方式和当前生成式 AI 用户所熟悉的使用习惯,通过不断提示和纠正模型的新方向,直到获得所需的答案。但在 o1 模型中,这些处理过程隐藏在幕后,无需额外的提示。”它学会了识别和纠正自己的错误。它学会了将棘手的步骤分解为更简单的步骤。当当前方法不起作用时,它学会了尝试不同的方法。” Open AI称。

虽然这些技术提高了模型在各种基准测试中的表现,但 OpenAI 发现,在一小部分情况下,它们还导致了 o1 模型故意欺骗用户的现象。在对 100000 个由 o1-preview 提供支持的 ChatGPT 对话的测试中,Open Ai 发现模型提供的大约 800 个答案是错误的。对于大约三分之一的错误回答,该模型的思维链表明,它知道答案是错误的,但还是提供了答案。

Open AI 在其模型系统卡片中写道:”故意幻觉主要发生在 o1-preview 被要求提供对文章、网站、书籍或类似来源的参考资料时,如果不访问互联网搜索,它就无法轻松验证,导致它编造可信的例子。”

总体而言,新模型在各种公司安全基准上表现优于 GPT-4o(OpenAI 之前最先进的模型),这些基准衡量了模型越狱的难易程度、它们提供错误响应的频率以及它们在年龄、性别和种族方面表现出偏见的频率。然而,该公司发现,当被问到一个模棱两可的问题时,o1-preview 比 GPT-4o 更有可能给出答案,而实际上,它应该回答它不知道答案。

OpenAI 没有发布有关用于训练其新模型的数据的太多信息,仅表示它们是根据公开可用的数据和通过合作伙伴关系获得的专有数据的组合进行训练的。

(机器翻译,轻度译后编辑,仅供参考)

编辑:田逸云

原⽂链接

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部