Llama 3.1 在文本和语音翻译方面表现如何？

Meta 的研究团队于 2023 年 7 月 23 日推出了 Llama 3.1，称其为 “世界上规模最大、能力最强的开放式基础模型”。

Llama 3.1 有 8B、70B 和 405B 三种参数大小，可根据计算资源和特定应用需求灵活部署。2024 年 4 月 18 日，Meta 发布了 Llama 3 系列大语言机型，最初只包括 8B 和 70B 两种尺寸。最新版本推出了 405B 型号以及 8B 和 70B 型号的升级版。

Llama 3.1 模型比其前身 Llama 2 有了长足的进步，它在一个包含 15 万亿个多语言词库的庞大语料库上进行了预训练，比 Llama 2 的 1.8 万亿个词库有了大幅提高。它们的上下文窗口可容纳多达 128k 标记（以前只能容纳 8k 标记），在多语言性、编码、推理和工具使用方面都有显著改进。

Llama 3.1 保持了与 Llama 和 Llama 2 相似的架构，但通过提高数据质量、多样性和扩大训练规模来实现性能改进。

Meta 的研究团队在涵盖多种语言的 150 多个基准数据集上测试了 Llama 3.1。他们发现，采用 405B 参数的 “旗舰模型 “在各种任务中都能与领先模型相媲美，并接近最先进的性能。较小的模型也是 “同类最佳”，其性能优于参数数量相当的其他模型。

SOTA 多语种翻译能力

在多语言任务中，小型 Llama 3.1 8B 机型超过了 Gemma 2 9B 和 Mistral 7B，而 Llama 3.1 70B 则超过了 Mixtral 8Xx22B 和 GPT 3.5 Turbo。Llama 3.1 405B 与 Claude 3.5 Sonnet 不相上下，性能优于 GPT-4 和 GPT 4o。

Meta 的研究团队强调，Llama 3.1 405B 是 “第一个公开可用的模型，在[……]多语言翻译和其他任务方面，其能力可与顶级人工智能模型相媲美”。

他们对利用该模型的多语言功能和扩展的上下文长度创建创新应用的潜力表示乐观，并表示 “我们迫不及待地想看到社区如何利用这项工作”。

语音翻译表现出色

除语言处理外，Llama 3.1 的开发还包括多模态扩展，可实现图像识别、视频识别和语音理解功能。

虽然这些多模态扩展功能仍在开发中，但初步结果表明，在图像、视频和语音任务中，它们的性能都很有竞争力。

Meta 的研究团队专门就自动语音识别 (ASR) 和语音翻译对 Llama 3.1 进行了评估。在 ASR 方面，他们将其性能与 Whisper、SeamlessM4T 和 Gemini 进行了比较。在所有基准测试中，Llama 3.1 的表现均优于 Whisper 和 SeamlessM4T，与 Gemini 的表现相似，显示出 “在语音识别任务中的强劲性能”。

Slator Pro 指南：人工智能翻译

在要求模型将非英语语音翻译成英语文本的语音翻译任务中，Llama 3.1 的表现再次优于 Whisper 和 SeamlesM4T。”我们的模型在语音翻译中的表现凸显了多模态基础模型在语音翻译等任务中的优势，”Meta 的团队说。

他们还分享了开发过程的细节，以帮助研究界了解多模式基础模型开发的关键因素，并鼓励对这些模型的未来进行知情讨论。”他们说：”我们希望尽早分享我们的成果，以加快这一方向的研究。

早期使用案例

Meta 推出的 Llama 3.1 在人工智能界引起了轰动。自发布以来，许多人在 X 和 LinkedIn 上称其为 “游戏规则的改变者 “或 “GPT-4 杀手”，将这一时刻视为 “开源人工智能的最大时刻”。此外，他们还谈到了 “业务转型的地震式转变”，并解释说这将 “彻底改变公司的工作方式”。

帖子中列举了大量实例，展示了 Llama 3.1 的多种不同使用方式，包括电话助手、文档助手和代码助手。

Groq + LLaMa 3.1-8b 太有趣了。

人们通过语音笔记分享即时回复。
我亲自尝试了一下，感觉非常棒： pic.twitter.com/yWimJhPZuC

– 鲁本-哈希德 (@RubenHssd) 2024 年 7 月 25 日

公开发布

Meta 根据更新后的社区许可证发布了所有 Llama 3.1 模型，以促进进一步创新和负责任地开发人工通用智能 (AGI)。

“他们说：”我们希望旗舰模型的公开发布能激发研究界的创新浪潮，并加快人工通用智能发展的负责任之路。此外，他们认为 Llama 3.1 的发布将鼓励业界在 AGI 开发中采用开放和负责任的做法。

Meta 研究团队承认，还有许多工作需要探索，包括更方便设备使用的尺寸、更多的模式以及对代理平台层的进一步投资。

这些模型可在 llama.meta.com 和 Hugging Face 上下载，并可立即在广泛的合作伙伴平台生态系统中进行开发，包括 AWS、NVIDIA、Databricks、Groq、Dell、Azure、Google Cloud 和 Snowflake。

领导Meta生成式人工智能工作的Ahmad Al-Dahle在X上的一篇文章中写道：”有了英伟达AI Foundry中的Llama 3.1，我们将看到企业利用世界上最好的开源人工智能模型轻松创建定制的人工智能服务。”

原文链接

SOTA 多语种翻译能力

语音翻译表现出色

Slator Pro 指南：人工智能翻译

早期使用案例

公开发布

发表评论 取消回复

发表评论取消回复