我们对开源人工智能有了定义

开源人工智能现在无处不在。问题是,没有人对它到底是什么这样一个问题达成一致。现在,我们可能终于有了答案。开放源码倡议组织(Open Source Initiative,简称OSI)自称是开放源码的仲裁者,该组织发布了一个新的定义,希望能帮助立法者制定法规,保护消费者免受人工智能风险的侵害。

尽管OSI已其他领域的开源技术发表了许多文章,但这是它首次尝试为人工智能模型定义这一术语。该组织请一个由研究人员、律师、政策制定者、活动家以及Meta、谷歌和亚马逊等大型科技公司的代表组成的70人小组提出工作定义。

该小组认为,开源人工智能系统可用于任何目的,无需获得许可,研究人员应能检查其组件并研究系统如何工作

此外,还应能出于任何目的对系统进行修改——包括改变其输出结果——并能与他人共享系统供其出于任何目的使用无论是否经过修改)。此外,该标准还试图定义特定模型的训练数据、源代码和权重的透明程度。

以前缺乏开源标准是一个问题。尽管我们知道,OpenAI Anthropic决定对其模型、数据集和算法保密,这使它们的人工智能成为源,但一些专家认为,Meta 和谷歌的免费访问模型(开放给任何人检查和调整)也不是真正意义上的开源,因为许可证限制了用户使用模型的权限,而且训练数据集也没有公开。我们已联系Meta、谷歌和OpenAI,请他们对新定义做出回应,但他们在本报告发布前还未做出回复。

人工智能模型构建和共享平台Hugging Face的应用政策研究员 Avijit Ghosh说,“众所周知,一些公司在营销其模型时滥用了这一术语。”即使研究人员无法独立调查模型是否真的开源模型,但将模型描述为开源模型可能会使其被认为更值得信赖。

Mozilla高级顾问、OSI 流程参与者Ayah Bdeir说,开源定义的某些部分比较容易达成一致,如需要披露模型权重(有助于决定人工智能模型如何生成输出的参数)。讨论的其他部分争议较大,特别是关于如何公开培训数据的问题。

训练数据来源的不透明已经导致了针对大型人工智能公司的无数诉讼,比如OpenAI这样的大型语言模型制造商、Suno这样的音乐生成器,这些公司除了说它们包含“可公开获取的信息”之外,并没有披露太多关于训练集的信息。对此,一些倡导者表示,开源模型应公开其所有训练集,但Bdeir表示,由于版权和数据所有权等问题,这一标准很难执行。

最终,新定义要求开源模型提供的训练数据信息必须达到“熟练人员可以使用相同或类似数据重新创建一个基本等同的系统”这一程度。这并不是共享所有训练数据集的全部要求,但也比目前许多专有模型甚至表面上的开源模型做得更进一步。这是一种妥协。

Bdeir说:“坚持一种意识形态上纯朴的黄金标准,实际上任何人都无法有效地达到这一标准,最终会适得其反。”她补充说,OSI正在计划建立某种执行机制,对那些被描述为开源但不符合其定义的模型进行标记。它还计划发布一份符合新定义的人工智能模型清单。目前还没有任何一款产品得到确认,Bdeir向《麻省理工科技评论》透露,预计将上榜的产品都是一些相对较小的型号,如 Eleuther公司的Pythia 、Ai2公司的OLMo以及开源团体LLM360的产品。

原文链接

(机器翻译,轻度译后编辑,仅供参考。)

编辑:李旭媛

审校:章坚

发表评论

您的电子邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部