最近一个被强化的认识是，精细的评测标准是各领域大模型产品落地

即刻App年轻人的同好社区

下载

Mr.Chou

1年前

最近一个被强化的认识是，精细的评测标准是各领域大模型产品落地的最关键因素，而这个环节正被过分低估。

今天身边还有朋友测“大模型数strawberry里有几个r”的例子，发现一众大模型，包括长思考加成的Kimi在内，都还是纷纷倒下了。这个经典问题曾经引发热烈讨论，多数共识是tokenization导致的原始字符级信息丢失的原因。但为什么模型不自己主动地展开数呢？——因为没人教它这么做（by Andrej Karpathy）。

好家伙，那真实场景中到底还存在多少“对人来说如此自然，但因为没人教模型这么做，所以它总掉链子”的情况呢？

因而deepseek-r1涌现出的表达“我要怎么做”的能力令人印象深刻。除了在公共benchmark上的亮眼表现之外，深入使用过的人，甚至有时能从r1的思考过程中获得分析性的启发。在这些时刻，它表现出能很自然地运用一些与任务场景相关的“小常识”——完成该任务应该具备的“基本做事方法和思维方式”。在前几天@追风少女晴岚让Manus“抓京东的数据做分析”的case中，模型在尝试多次爬数据无果的情况下，选择了生成模拟数据来完成任务的策略。可是这个任务描述没明写出来、但最显而易见的常识，不就是「数据的真实性」么？

所以，对于模型在各行各业的落地来说，「场景常识的具备和运用」是一个很容易被忽略的优化重点。除了完善专有的tools、增强任务规划的planning能力、准确设计context和memory这几个「脚手架」之外，模型本身还必须能够以从业者的基本视角去理解任务的内涵和边界，理解场景的内在要求。

但模型的这种能力，很难正向构建出来。Karpathy认为strawberry这类问题的核心在于目前的大模型缺乏「认知自我知识（cognitive self-knowledge）」（模型自身对其知识和能力的自我认知）。模型对自己不具备哪些常识，是不自知的，人也无法在模型犯错前提前获知。按照现在的技术路线，不管模型如何发展，这个问题恐怕会长期存在。所以，在每个有价值的任务中，即使是提示词老手，提示词也需要反复迭代，因为在模型具备基本智商的情况下，“人要把话需要说得多明白”，取决于模型在该场景下的常识的深度和细度如何，这只能一点点试出来。模型的知识并不是一块连续的大陆，反倒是有着各种看不见的深坑和塌陷。我们试图在模型上建立的各式各样的知识挖掘机器，要想保持稳定运转，就得在现场勘测时摸清楚坑的位置，并在这些地方做好加固和铺垫。

一个垂直领域内合格的能用的大模型产品，就必须全面摸过并设置了手段以避过这些坑，才能获得领域的入场券。所以，一个领域里的大模型产品及其生态能健康发展的前提，就是有全面覆盖真实场景的深坑的精细测评。但这种测评太专业、精细和繁杂了，很难由一小撮人自顶向下地构建。最好的方式，可能是动员全领域的真实从业者去寻找现有模型在领域应用中被踩到的坑坑洼洼，这些坑往往不是知识性的（现在的公共benchmark的方向），而是情境性的（理解任务本身，做好执行）；不是泛泛而谈的（过于大而化之），而是细节丰富的（琐碎但有价值）。如果没有这样的过程，就很难建立起有效的评测标准来捕捉错误，也就无法谈论垂直领域需要怎样的数据补充，模型在任何领域的落地都走不长做不大。

6 23

来自圈子

AI探索站

108635人已经加入