🌋 超重磅:Meta 正式推出开源的Llama 3.1,现在人人都可以拥有GPT-4o水平的大模型
Llama 3.1 405B 在多项重要基准评估上, 甚至超越了Claude 3.5 Sonnet和GPT-4o,在常识、可转向性、数学、工具使用和多语种翻译等一系列任务方面,与领先的封闭源代码模型相媲美。
🐑 正式介绍 Llama 3.1
Llama 3.1 405B 在超过15 万亿个代币上, 1万6千张 H100 GPU 显卡训练数个月,这也是有史以来第一个以如此庞大规模的 Llama 模型。
作为最新版本的一部分,Llama 还推出了 8B 和 70B 型号的升级版本。这些模型是多语种的,上下文长度答复增加到 128K,整体推理能力更强。
💪 强大的Llama 3.1 405B ,媲美当下最顶级模型
在多项基准测试中, Llama 3.1 405 和GPT-4o、Claude 3.5 Sonnet 相当或超越。
Llama 3.1 405B 胜出任务和基准评估,具体有:
- IFEval (88.6),它评估模型在If-Then推理任务中的决策制定和情景分析等能力。
- GSM8K (96.8) ,它评估了模型解决小学到初中水平数学应用题的能力,反映其多步骤推理和执行基础数学运算方面的强大能力。
- ARC Challenge (96.9),它测试模型回答需要因果推理、逻辑推理和抽象思维的多选题的能力,表明模型具有强大的推理和常识理解。
- ZeroSCROLLS/QuALITY (95.2,与GPT-4并列),它评估模型理解和分析长文本的能力,这对于理解复杂文档、报告或故事非常重要。
- Nexus (58.7) 明显优于其他模型,评估模型在复杂的推理链和知识整合任务中的表现。
- Multilingual MGSM (91.6,与Claude 3.5 Sonnet并列),测试模型在多种语言中解决数学问题的能力,展示了模型的多语言处理能力和跨语言的数学推理能力。
综合来说, Llama 3.1 405B 凸显了其在数学推理、逻辑思维、长文本理解、复杂推理和多语言处理方面的强大能,在处理需要深度思考、长期记忆和跨领域知识整合的任务时将会非常出色,对于开发高级 AI 应用具有深远意义。
🌳 Llama 将深刻影响全球创新生态
升级版 Llama 3.1 8B 和 70B 型号也是同类产品中的佼佼者,这些较小的型号同样支持经过改进的 128K 标记上下文窗口、多语言性、改进的推理和最先进的工具使用.
新一代的 Llama 将点燃新的应用和建模范式,包括生成合成数据以改进和训练更小的模型,以及模型提炼--这是开源软件从未达到过的能力。
Mark Zuckerberg 在一封公开信中表达:我们相信,开源将确保全世界更多的人能够享受人工智能带来的好处和机会,确保权力不会集中在少数人手中,确保这项技术能够在全社会得到更均衡、更安全的应用。 这就是为什么我们继续在开源人工智能成为行业标准的道路上迈出步伐。
🔗 访问 Llama 3.1
通过 WhatsApp 和
meta.ai (美区),你可以第一时间体验到 Llama 3.1 405B。(评论区持续更新第三方平台地址和评测)
更多模型相关信息,参见官网
llama.meta.com