即刻App
年轻人的同好社区
下载
App内打开
曼祺_火柴Q
11月前
我发现一个华点,有技术同学可以说一说吗?
为什么在 Kimi-k1.5 long-CoT (P1)和 DeepSeek-R1 (P3)这两个图里,OpenAI o1-mini 在同一个benchmark(比如 AME2024 和 CodeForces)上的分不一样?
Kimi 图里 OpenAI o1-mini 的分要比 DeepSeek 里的低?😅
是因为测的版本不同?
曼祺_火柴Q: 寸,Kimi 和 DeepSeek 的发布时间又杠上了! 上一次,Kimi 11 月 17 日发布 K0-math DeepSeek 11 月 20 日发布 R1-Lite-preview。 今晚,20 点 10 分 DeepSeek-R1 正式发布 约 20 分钟后,Kimi 发布 k1.5。 都是强化学习、思维链(o 方向上的进展) Kimi 继续闭源。 DeepSeek 开源,且开放思维链输出,还允许用户通过蒸馏借助 R1 训练其他模型。 他们自己也基于 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区。 🍓上线时间: “DeepSeek 官网与 App 即日起同步更新上线” “The service of Kimi k1.5 on https://kimi.ai will be available soon.” 🍓Kimi-k1.5,在文本和视觉数据上联合训练,对两种模态有联合推理能力。 DeepSeek 依然没展示多模态能力。 🍓Benchmark 表现: P1&2 为 Kimi-k1.5 long-CoT 和 short-CoT,有 Math、Code,也有 Vision。 P3 为 DeepSeek-R1 的表现,主要是测了 Math、Code 的 benchmark。 🍓价格: DeepSeek 依然性价比令人发指!(P5) Kimi-k1.5 未显示相关信息(其实 Kimi 是有 API 业务的,但应该不是重点)。 🍓两个更新的技术文档链接: https://github.com/MoonshotAI/Kimi-k1.5 https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf 😇果然,大模型创业者没有春节。 想起老钱那句话:“Thanksgiving means nothing to me!!”
4
8
1