即刻App年轻人的同好社区
下载
App内打开
雅芳af
2年前
碾压Llama 2、Mistral 7B!微软发布了Phi-2,具有27亿参数

当前Phi-2在Azure AI Studio模型列表上可用,而早先微软就发布了phi1(13亿)、phi 1.5(13亿)。

Phi系列模型是使用「教科书质量」数据训练的,尽管在数据集和模型大小方面比竞品模型小几个数量级,但性能不差参数比它大的模型。

在微软发布的《Textbooks Are All You Need》论文中,用7B token规模的「教科书质量」数据训练了13亿参数的phi-1。

phi-1训练数据集要点:
•一个经过筛选的代码 - 语言数据集,它是 The Stack 和 StackOverflow 的一个子集,通过使用基于语言模型的分类器获得(包含约 6B token)。
•一个合成的教科书数据集,包含不到 1B 个 token 的 GPT-3.5 生成的 Python 教科书。
•一个小型的合成练习数据集,包含大约 180M 个 token 的 Python 习题和答案。

以上数据组成了总token量不到 7B 的训练数据集。作者将经过筛选的代码 - 语言数据集和合成的教科书数据集的组合称为「CodeTextbook」。

phi-1 证明高质量的「小数据」能够让模型具备良好的性能。近期,微软又发表了论文《Textbooks Are All You Need II: phi-1.5 technical report》,对高质量「小数据」的潜力做了进一步研究。

🔗论文(phi-1):arxiv.org
🔗模型(phi-1):huggingface.co
🔗论文(phi-1.5):arxiv.org
🔗模型(phi-1.5):huggingface.co_5
🔗博客(phi-2):www.microsoft.com
01

来自圈子

圈子图片

AI探索站

101379人已经加入