即刻App年轻人的同好社区
下载
App内打开
歸藏
1年前
Llama2发布了,这版本可以商用了,国内的大模型有救了,我详细整理了一些信息:

- Llama2 的性能和参数
- 如何使用和限制条件
- Llama2 的模型架构
- Llama2 的训练方法论

👇下面是详细的信息

Llama2 的性能和参数

- Llama2有三个大小的版本分别是7B 13B和70B
- Llama 2 的训练数据比 Llama 1 多 40%,上下文长度是 Llama 1 的两倍。
- 预训练的Token为2 万亿,上下文长度为4096
- 据Meta所说,Llama 2 在许多外部基准测试中都优于其他开源语言模型,包括推理、编码、熟练程度和知识测试。

如何使用和限制条件

- 与第一次泄漏的版本不同,这次Meta开放了商业使用的权限。
- 现在可以直接在这个页面申请下载模型:ai.meta.com
- 日活大于7亿的产品需要单独申请商用权限
- 不得使用 Llama 材料或 Llama 材料的任何输出或结果来改进任何其他大型语言模型。

Llama2 的模型架构

- Llama 2-Chat 的基础是 Llama 2 系列预训练语言模型。Llama 2 使用标准的Transformer架构。

- Llama 2-Chat 通过监督微调和强化学习人类反馈进行了优化。先进行监督微调,然后应用包括拒绝采样和PPO在内的强化学习算法进行迭代改进。

- 采用了一些优化,比如预规范化、SwiGLU激活函数和旋转位置嵌入(RoPE)。

- Llama 2-Chat有70亿、34亿、13亿和7亿参数的版本。训练使用公开可获得的数据,没有使用任何Meta用户数据。

Llama2 的训练方法论

1. 预训练
• 使用公开可获得的在线数据进行预训练,总计2万亿个标记。
• 对数据进行了清洗,移除了一些包含大量个人信息的网站。
• 采用标准的Transformer架构,以及一些优化如RoPE等。

2. 监督微调
• 使用高质量的人工标注数据(约3万示例)进行监督微调。
• 优化回答标记,而不是提示标记。

3. 基于人类反馈的强化学习
• 收集人类偏好数据: letting人类比较并选择更好的回复。
• 训练奖励模型,给回复打分。
• 使用拒绝抽样和PPO算法进行迭代调优。

4. 安全性
• 收集安全/有帮助的数据进行监督微调。
• 训练独立的安全性奖励模型。
• 使用内容蒸馏等方法增强安全性。

5. 评估
• 在4K提示上进行有用性人类评估,与ChatGPT等旗鼓相当。
• 在2K提示上进行安全性人类评估,优于多个基准模型。

链接:ai.meta.com
1772

来自圈子

圈子图片

AI探索站

77595人已经加入