即刻App年轻人的同好社区
下载
App内打开
Szhans
4月前
🚀 AI 里程碑: ChatGPT 推出 GPT-4o mini,时代再次拉开了新的序幕

✨ GPT-3.5 落幕, GPT-4o 时代全面开启

AI 一天,人间一年。不少即友都还清晰记得去年3月15日,GPT-4 登场时横扫科技圈的激情。 不过,这一次不再只是极客们的狂欢,而是全球互联网用户的升级——

今天,当你打开ChatGPT 时,无论免费还是付费用户,GPT-3.5 被全面替换为了GPT-4o mini,这个更智能更小型化模型的表现,令人印象非常深刻。 从Hans 的商业视角看,这个界面上的一个微小变化,成为了新时代的序章。 [1]

(首发于即刻,未经授权不可转载)

💪 剑指 Google 、Meta 和 Anthropic,强大的GPT-4o mini 比 GPT-3.5 还便宜60%

在全面取代 GPT-3.5 Turbo后, 4o mini 成为 OpenAI 提供的最小模型。 Open AI 官方提供的评测数据显示[2],4o mini 在基准指标 MMLU 上的得分率为 82%,而 Gemini 1.5 Flash 为 79%,Claude 3 Haiku 为 75%。在衡量数学推理能力的 MGSM 中, 4o mini 的得分率为 87%,而 Flash 为 78%,Haiku 为 72%。

从性价比对比图3 中,第三方机构 Artificial Analysis 的评测结果显示,4o mini 与 Gemini、Llama 和Claude Haiku等小模型相比,有着惊人的实力。 [3] 其价格为 0.15 美元/100 万个输入代币和 0.6 美元/100 万个输出代币,开发者今天就可以使用。

简言之, Open AI 实现了一个相对其规模而言超高性价比的前沿模型,无论对于普通用户、开发者和整个生态创新而言都是巨大的进步。

正如 OpenAI 产品 API 主管 Olivier Godement 表示,“ 要想让世界的每一个角落都能被人工智能赋能,我们就必须让模型的价格更加亲民。"我认为 GPT-4o mini 确实是朝着这个方向迈出的一大步。”

🌳 看不见的森林隐秘生长

又小又强,还多模态? 在Open AI 公布的部分合作伙伴案例中,提到与 Ramp 和 Superhuman 等公司合作,发现 GPT-4o mini 在从收据文件中提取结构化数据或在提供线程历史记录时生成高质量电子邮件回复等任务方面的性能明显优于 GPT-3.5 Turbo。

更令人期待的是,GPT-4o mini 的API 现已支持文本(且大幅改善了非英文的效率)和视觉,未来还将支持文本、图像、视频和音频输入和输出。在多模态推理方面,GPT-4o mini 在评估 MMMU 中也表现出色,得分率为 59.4%,而 Gemini Flash 为 56.1%,Claude Haiku 为 50.2%。

Andrej Karpathy 随即在推特兴奋表达, “我敢打赌,我们将看到思考能力得非常好、非常可靠的模型,它们的体积非常非常小…… LLMs 模型尺寸的竞争将进一步加剧”

Open AI 在GPT-4o mini的发布博文中认真写下这样的愿景时,我想他们大概率将实至名归:

“在我们的设想中,未来模型将无缝集成到每个应用程序和每个网站中。人工智能的未来正变得更加易用、可靠,并嵌入到我们的日常数字体验中,我们很高兴能继续引领这一潮流。”

📝 注释

[1] Open AI 这一年 m.okjike.com

[3] Open AI 的官方标准评测 openai.com

[2] Artificial Analysis 对GPT-4o mini 的性价比测评 x.com
415

来自圈子

圈子图片

AI探索站

78013人已经加入