toB 应用开发中， Deepseek 的能力、稳定性绝对是国内一众大模型中最禁得起实战考验的，没有之一，特别是 比起那些成天投流、打榜、创始人刷存在感的

但是deepseek的C端应用好像挺一般

继周日 Kimi 发了使用强化学习的 K0-math 模型，
今天 DeepSeek 也发布了同样强于推理、数学和编程的 DeepSeek-R1-Lite-Preview。
	
开分放榜自然是标准动作，两家公司各自展现了模型成绩。
我挑了其中重合的两个测评做表：美国数学竞赛 AIME 和 MATH。
	
🌺DeepSeek 特意标注了 pass@1，即只生成一次结果。
而从官方渠道看，Kimi 好像没有特别说明目前的他们的成绩是 pass@ 多少的结果？（有看到或知道的朋友可以指出）
其实 pass@1 最接近大家的实际实用情况，在强化学习和 test time compute 范式下，本身推理的时间和算力成本比较高，pass@1 就有不俗表现的话是一个实用优势。
	
如果说 Kimi 是中国大模型最在风口浪尖的 lady in the chips，那 DeepSeek 和背后的幻方就是最神秘的 quiet luxury。

幻方多年来前就已是国内顶尖的量化基金，量化这事也很吃计算和 AI 能力。

回到几年前，摆在清华姚班毕业生面前的一种典型 offer 选择就是：去 pony 还是去幻方？
	
幻方在 2023 年初时就有 10000 张 A100！
而与庞大的 GPU 数量形成对比的是，幻方梁文锋的微信联系人据说只有几十人。真的吗？
	
（不知道能不能在评论区看到更多幻方故事

《晚点 LatePost》科技报道负责人，  同时在做播客《晚点聊 LateTalk》。

来自圈子

AI探索站