微软的这个 phi-3-mini 模型有点强啊。

4 位量化之后可以部署在 iPhone 14 上，只占用 1.8G 内存，每秒输出 12 个 Token 。

关键他们说这个模型能力上跟 Mixtral 8x7B 和 GPT-3.5 差不多。

详细介绍：

一个新型语言模型 phi-3-mini，该模型拥有38亿参数，训练数据高达3.3万亿 Token。

根据学术基准和我们的内部测试，phi-3-mini 的整体性能与 Mixtral 8x7B 和 GPT-3.5 等大型模型相当（例如，在 MMLU 测试中达到69%，在 MT-bench 测试中得分为8.38），但其体积小到足以部署在手机上。

这种创新归功于我们的训练数据集，它是 phi-2 所用数据集的扩大版本，包括了经过严格筛选的网络数据和合成数据。此外，这个模型还进一步优化了其鲁棒性、安全性和适应聊天的格式。

我们还初步展示了在训练达4.8万亿 Token 的情况下，使用7B和14B参数的模型（名为 phi-3-small 和 phi-3-medium）所取得的成效，这两个模型的性能均显著优于 phi-3-mini（例如，在 MMLU 测试中分别达到75%和78%，在 MT-bench 测试中分别得分为8.7和8.9）。

技术报告地址：https://arxiv.org/abs/2404.14219

产品设计师、模型设计师、 不会代码的独立开发者。  关注人工智能、LLM 、 Stable Diffusion 和设计。

来自圈子

AI探索站