碾压Llama 2、Mistral 7B！微软发布了Phi-

即刻App年轻人的同好社区

下载

雅芳af

2年前

碾压Llama 2、Mistral 7B！微软发布了Phi-2，具有27亿参数

当前Phi-2在Azure AI Studio模型列表上可用，而早先微软就发布了phi1（13亿）、phi 1.5（13亿）。

Phi系列模型是使用「教科书质量」数据训练的，尽管在数据集和模型大小方面比竞品模型小几个数量级，但性能不差参数比它大的模型。

在微软发布的《Textbooks Are All You Need》论文中，用7B token规模的「教科书质量」数据训练了13亿参数的phi-1。

phi-1训练数据集要点：
•一个经过筛选的代码 - 语言数据集，它是 The Stack 和 StackOverflow 的一个子集，通过使用基于语言模型的分类器获得（包含约 6B token）。
•一个合成的教科书数据集，包含不到 1B 个 token 的 GPT-3.5 生成的 Python 教科书。
•一个小型的合成练习数据集，包含大约 180M 个 token 的 Python 习题和答案。

以上数据组成了总token量不到 7B 的训练数据集。作者将经过筛选的代码 - 语言数据集和合成的教科书数据集的组合称为「CodeTextbook」。

phi-1 证明高质量的「小数据」能够让模型具备良好的性能。近期，微软又发表了论文《Textbooks Are All You Need II: phi-1.5 technical report》，对高质量「小数据」的潜力做了进一步研究。

🔗论文（phi-1）：arxiv.org
🔗模型（phi-1）：huggingface.co
🔗论文（phi-1.5）：arxiv.org
🔗模型（phi-1.5）：huggingface.co_5
🔗博客（phi-2）：www.microsoft.com

2 01

来自圈子

AI探索站

101379人已经加入