7 月 23 日星期二,Meta 宣布推出多语言大型语言模型 (large language models,简称LLMs) Llama 3.1 系列。Llama 3.1 包含经过预训练和指令调整的文本输入/文本输出开源生成式人工智能模型,参数大小为 8B、70B 和首次达到的 405B。
经过指令调整的 Llama 3.1-405B 是目前规模最大、功能最强大的开源语言模型,可与市场上最好的专有模型相媲美,7月23日在 IBM® watsonx.ai™ 上推出,可部署在 IBM 云、混合云环境或企业内部。
Llama 3.1 版本是继 4 月 18 日推出 Llama 3 型号之后发布的。在随附的发布公告中,Meta 表示“[他们]近期的目标是使 Llama 3 成为多语言、多模态、具有更长上下文的软件,并继续提高 LLM 的整体性能,如推理和编码能力”。
Llama 3.1 大幅增加了上下文长度,拥有扩展的工具和多语言功能,展示了在实现这一目标方面取得的重大进展。
向无障碍、开放、负责任的人工智能创新迈出重要一步
2023 年 12 月,Meta 和 IBM 与全球 50 多个创始成员和合作者共同发起了人工智能联盟。人工智能联盟汇聚了工业界、初创企业、学术界、研究机构和政府部门的领先组织,旨在塑造人工智能的发展,以最好地反映我们社会的需求和复杂性。自成立以来,联盟已发展到 100 多个成员。
更具体地说,人工智能联盟致力于培养一个开放的社区,使开发人员和研究人员能够加快负责任的创新,同时确保信任、安全、保障、多样性、科学严谨性和经济竞争力。为此,联盟支持开发和部署基准以及评估标准的项目,帮助应对全社会的挑战,支持全球人工智能技能建设,鼓励以安全有益的方式开放开发人工智能。
Llama 3.1 为全球人工智能社区提供了一个开放的、最先进的模型族和开发生态系统,用于构建、实验和负责任地扩展新创意和新方法,从而推进了这一使命的实现。除了功能强大的新模型外,该版本还包括强大的系统级安全措施、新的网络安全评估措施和更新的推理时间防护措施。总之,这些资源鼓励为生成式人工智能开发和使用信任与安全工具的标准化。
Llama 3.1-405B 与主要型号的比较
在四月份发布的 Llama 3 公告中,讨论了即将推出的“参数超过 400B”的 Llama 型号,包括对型号性能的一些初步评估,但直到7月23日的发布会才公布了它们的具体尺寸和细节。Llama 3.1 对所有型号都进行了重大升级,新的 405B 开放源码型号与领先的封闭源代码专有 LLM 实现了前所未有的相对一致。
7月23日,Meta 公司发布的最新数据全面展示了 405B 机型与其他先进机型相比所取得的骄人成绩。以下是它与主要LLMs在通用基准方面的比较。[1]
- 本科生水平的知识(MMLU,5 样本)(Massive Multitask Language Understanding,简称MMLU,大规模多任务语言理解):经过指令调整的 Llama 405B 得分高达 87.3%,超过了 OpenAI 的 GPT-4-Turbo (86.5%)、Anthropic 的 Claude 3 Opus (86.8%)和谷歌的 Gemini 1.5 Pro (85.9%),同时完全超越了谷歌最大的 Gemini 模型 Gemini 1.0 Ultra (83.7%)。
- 研究生水平推理(GPQA,0样本)(Grade School Physics Question Answering,简称 GPQA ,研究生级别的Google验证问答基准测试):Llama 405B Instruct 的 GPQA 得分(50.7%)与 Claude 3 Opus(50.4%)相当,超过了 GPT-4T(48.0%),并大大超过了 Claude 3 Sonnet(40.4%)、Claude 3 Haiku(33.3%)和 GPT-4(35.7%)。
- 数学问题解决(MATH,0样本 CoT)( MATH 数据集是一个专门设计来衡量人工智能解决数学问题能力的基准) (CoT, Chain of thought,思维链,能够激发LLM通过“思考”来回答一些困难问题的技术):Llama 405B Instruct(73.8%)仅次于 GPT-4o(76.6%)。它超越了 GPT-4T(72.6%)和 Anthropic 的最新版本 Claude 3.5 Sonnet(71.1%),并明显优于 Claude 3 Opus(60.1%)。即使将 Llama 的 0 样本 MATH 分数与其他机型的 4 样本 MATH 分数进行比较,Llama 的表现也大大优于 GPT-4(42.5%)、Gemini Ultra 1.0(53.2%)和 Gemini Pro 1.5(58.5%)。
- 阅读理解(DROP,F1)(Discrete Reasoning over Paragraphs,简称 DROP,阅读理解基准测试):基础预训练的 Llama 405B(84.8)的表现优于 GPT-4o(83.4)、Claude 3 Opus(83.1)、Gemini 1.0 Ultra(82.4)和 Gemini 1.5 Pro(78.9)。其性能仅次于 GPT-4T(86.0)和 Claude 3.5 Sonnet(87.1)。
- 知识问答(ARC-Challenge,25样本)(ARC-Challenge,AI Reasoning Challenge,人工智能推理挑战):预先训练的 Llama 400B+(96.1%)与 GPT-4(96.3%)和 Claude 3 Opus(96.4%)的性能相当。
- 代码(HumanEval,0样本)(humanEval,评估工具,用来评估在代码上训练的大型语言模型的性能): 经过指导调试的 Llama 机型(89.0%)几乎是同类产品中的佼佼者,除 Claude 3.5 Sonnet 和 GPT-4o 外,轻松击败了其他所有机型。
透过数字看本质
在将 405B 与其他先进机型进行比较时,性能基准并不是唯一需要考虑的因素。其他部分模型只能通过应用程序接口访问,且底层模型可能会在未知的情况下更改,与此不同的是,Llama 3.1-405B 是一个稳定的平台,可以在其基础上构建、修改,甚至在企业内部运行。这种程度的控制和可预测性对于研究人员、企业和其他重视一致性和可重复性的实体来说是一大福音。
如何更好地使用 Llama-3.1-405B
与 Meta 一样,IBM 也认为可行的开放模型有助于提供更好、更安全的产品,加速创新,并促进人工智能市场的整体健康发展。复杂的 405B 参数开源模型的规模和能力为各种规模的组织提供了独特的机会和用例。
除了直接使用该模型进行推理和文本生成外(鉴于其大小和相应的计算需求,可能需要量化或其他优化方法才能在大多数硬件设置上本地运行),405B 还可用于其他用途:
- 生成合成数据:当用于预训练、微调或指令调整的合适数据稀缺或过于昂贵时,合成数据可以弥补这一差距。405B 可以生成高质量的任务和特定领域合成数据,用于训练另一个 LLM。IBM 的聊天机器人的大规模对齐(Large-scale Alignment for chatBots,简称LAB) 是一种分阶段训练协议,用于利用合成数据有效更新 LLM,同时保留模型的现有知识。
- 知识提炼:405B 模型的知识和新兴能力可以提炼到一个较小的模型中,将大型 “教师”模型的能力与 “学生”模型(如 8B 或 70B Llama 3.1)快速、经济的推理能力融为一体。知识的提炼,特别是通过对大型 GPT 模型生成的合成数据进行指导调整,对于创建像 Alpaca 和 Vicuna 这样有影响力的基于 Llama 的模型至关重要。
- LLM 担任法官:由于人类偏好的主观性,以及现有基准对人类偏好的近似能力并不完善,因此评估 LLM 可能非常棘手。例如,正如 “Llama 2” 研究论文所展示的,大型模型可以作为其他模型响应质量的公正评判者。(欲了解更多有关 LLM 担任法官技巧的功效,可以从这篇 2023 年的论文入手)。
- 功能强大、针对特定领域的微调:许多领先的封闭式模型只允许根据具体情况进行微调,只能对较旧或较小的模型版本进行微调,或者根本不允许进行微调。相反,Meta 已经将 Llama 3.1-405B 完全用于持续的预训练(以保持模型的常识最新),或对特定领域进行微调–watsonx Tuning Studio 即将推出。
为了成功推出 Llama 3.1 模型,Meta AI “强烈建议” 使用像 IBM® watsonx 这样提供模型评估、安全防护和检索增强生成 (retrieval augmented generation,简称 RAG) 等核心功能的平台。
适用于每种尺寸的 llama 3.1 型号的升级版
期待已久的 405B 型号可能是 Llama 3.1 版本中最值得关注的地方,但它远不是唯一值得关注的地方。虽然 Llama 3.1 型号与 Llama 3 采用相同的密集变压器架构,但在所有型号中,它们都对 Llama 3 进行了多项重大升级。
更长的上下文窗口
在所有经过预训练和指令调整的 Llama 3.1 模型中,上下文长度从 Llama 3 中的 8,192 个词组大幅增加到 Llama 3.1 中的 128,000 个词组,增幅高达 1600%。这使得 Llama 3.1 的上下文长度与提供给企业用户的 GPT-4o 版本相当,大大超过 GPT-4(或 ChatGPT Free 中的 GPT-4o 版本),并与 Claude 3 提供的 20 万个令牌窗口相当。由于 Llama 3.1 可以部署在用户选择的硬件或云提供商上,因此其上下文长度在需求量大的时期不会受到临时缩减的影响。同样,Llama 3.1 一般也不受广泛的使用限制。
一个模型的上下文长度(又称上下文窗口)指的是 LLM 在任何给定时间内可以考虑或 “记忆” 的文本总量(以词组为单位)。当对话、文档或代码库超过模型的最大上下文长度时,必须对其进行修剪或摘要,以便模型继续进行。Llama 3.1 扩展了上下文窗口,这意味着 Llama 模型现在可以在不遗忘细节的情况下进行更长时间的对话,并在训练和推理过程中摄入更大的文档或代码样本。
虽然将文本转换为tokens不需要任何固定的单词到代币的 “交换率”,但一个合适的估计是每个单词大约有 1.5 个token。因此,Llama 3.1 的 128,000 个标记上下文窗口相当于约 85,000 个单词。Hugging Face 上的 Tokenizer Playground 是查看和实验不同模型如何标记文本输入的简单方法。
Llama 3.1 模型继续享受为 Llama 3 推出的新标记化器带来的好处,该标记化器对语言的编码效率比 Llama 2 高得多。
维护安保和安全
Meta 公司本着对创新负责任的态度,谨慎而彻底地处理扩大背景长度的问题。值得注意的是,之前的开源实验已经产生了 128,000 个 token 窗口,甚至 100 万个 token 窗口的 Llama 衍生工具。尽管这些项目是 Meta 致力于开放模型所带来的好处的极佳例证,但我们仍应谨慎对待:最近的研究表明,如果没有严格的应对措施,超长的上下文窗口会 “为 LLM 提供丰富的新攻击面”。
幸运的是,Llama 3.1 版本还包含了一套新的推理守护轨。除了 Llama Guard 和 CyberSec Eval 的更新版本外,该版本还推出了 Prompt Guard,提供直接和间接提示注入过滤功能。Meta 通过 CodeShield 进一步降低风险,CodeShield 是一种强大的推理时间过滤工具,旨在防止将 LLMs 生成的不安全代码引入生产系统。
与任何生成式人工智能的实施一样,明智的做法是只在具有强大安全、隐私和安全措施的平台上部署模型。
多语种模型
经过预训练和指导调整的各种大小的 Llama 3.1 模型现在都可以使用多种语言。除英语外,Llama 3.1 型号还能使用其他语言,如西班牙语、葡萄牙语、意大利语、德语和泰语。Meta 还指出,“其他一些语言” 仍处于训练后的验证阶段,未来可能会发布。
优化工具使用
Llama 3.1 Instruct 模型针对 “工具使用” 进行了微调,这意味着 Meta 优化了这些模型与某些程序的接口能力,以补充或扩展 LLM 的功能。这包括为特定搜索、图像生成、代码执行和数学推理工具生成工具调用的训练,以及对零样本工具使用的支持,即与训练中以前未见过的工具顺利集成的能力。
开始使用 Llama 3.1
Meta 的最新版本为您提供了前所未有的机会,让您可以根据具体情况调整和定制真正先进的生成式人工智能模型。
支持 Llama 3.1 是 IBM 承诺的一部分,IBM 将进一步推动人工智能领域的开源创新,并让我们的客户能够访问 watsonx 中的一流开放模型,包括第三方模型和 IBM Granite 模型系列。
IBM watsonx 可帮助客户以最符合其需求的方式真正定制 Llama 3.1 等开源模型的实施,包括灵活地在企业内部或首选的云环境中部署模型,以及用于微调、指令工程和与企业应用集成的直观工作流。随时为您的业务构建定制的人工智能应用程序,管理所有数据源,加快负责任的人工智能工作流程——所有这些都在一个平台上完成。
7月23日,Llama 3.1-405B 在 IBM watsonx.ai 中推出,8B 和 70B 型号也将很快推出。
在 watsonx.ai™ 中试用 Llama 3.1-405B
立即使用 Llama 3.1-405B 和 watsonx.ai 开始 RAG 教程:
[1] 所引用的专有模型基准评估来自 Anthropic 于 2024 年 6 月 20 日(Claude 3.5 Sonnet 和 Claude 3 Opus)和 2024 年 3 月 4 日(Claude 3 Sonnet 和 Haiku)、OpenAI 于 2024 年 5 月 13 日(GPT 模型)和 Google Deepmind 于 2024 年 5 月(Gemini 模型)提供的自报数据。
(机器翻译,轻度译后编辑,仅供参考。)
编辑:李旭媛