即刻App年轻人的同好社区
下载
App内打开
曼祺_火柴Q
1年前
继周日 Kimi 发了使用强化学习的 K0-math 模型,
今天 DeepSeek 也发布了同样强于推理、数学和编程的 DeepSeek-R1-Lite-Preview。

开分放榜自然是标准动作,两家公司各自展现了模型成绩。
我挑了其中重合的两个测评做表:美国数学竞赛 AIME MATH。

🌺DeepSeek 特意标注了 pass@1,即只生成一次结果。
而从官方渠道看,Kimi 好像没有特别说明目前的他们的成绩是 pass@ 多少的结果?(有看到或知道的朋友可以指出)
其实 pass@1 最接近大家的实际实用情况,在强化学习和 test time compute 范式下,本身推理的时间和算力成本比较高,pass@1 就有不俗表现的话是一个实用优势。

如果说 Kimi 是中国大模型最在风口浪尖的 lady in the chips,那 DeepSeek 和背后的幻方就是最神秘的 quiet luxury。

幻方多年来前就已是国内顶尖的量化基金,量化这事也很吃计算和 AI 能力。

回到几年前,摆在清华姚班毕业生面前的一种典型 offer 选择就是:去 pony 还是去幻方?

幻方在 2023 年初时就有 10000 A100!
而与庞大的 GPU 数量形成对比的是,幻方梁文锋的微信联系人据说只有几十人。真的吗?

(不知道能不能在评论区看到更多幻方故事
44

来自圈子

圈子图片

AI探索站

108958人已经加入