在刚开始做科研的时候,我就知道 Denny Zhou 的名字了,从 Semi-Supervised Learning 到 Crowdsourcing,他总是在那个领域最火热的时候留下几篇必读文献。这两天看 Berkeley CS294 的课程资料,又看到了他在 LLM Reasoning 领域所做的研究。时间跨度二十年,他居然保持了如此高的研究延续性,不禁让人感慨。他的主线故事是如何用更少的人类标记来获取真正的智能。
CoT 其实很容易想到。事实上,人类遇到难题时惯常的做法就是:拆解成若干简单任务,添加中间推理步骤。
很有趣的一件事情是,Denny Zhou 在演讲中引用了 Polya 的那本很有名的《如何解题》,将问题分解、提供相似问题及其解法作为例证。《如何解题》这本书很有名,我很确定在义务教育阶段至少被数学老师提到过好几次,但是我没有读过,毕竟那时对我来说,读这种书远不如多刷几道题管用。这本书更像是写给老师的,毕竟教师需要明确自己究竟在向学生传授什么。不知道 Polya 是否知道有一天人类在用他的书来教育人工智能。
如果把这个问题再泛化一点,想让 LLM 更接近人类,我们应该去研究哲学,把哲学教给 LLM,再让它按照哲学来思考。
作为一个人类,我对这件事情感到五味杂陈。如果这样做真的成功了,那我们是不是得到了一个柏拉图的《理想国》里所提过的“哲人王”?那人类该放在哪里?我生活中遇到的大部分人,仅靠按部就班与好运气过上安稳日子。他们只能在专业领域内思考如何优化工作流,而许多改进往往不被系统所接纳。而我们训练的 Agent 可以在各种可验证的环境中来实践“知行合一”?我竟觉得嫉妒占了上风。
说回 Crowdsourcing,十年前人类还在研究着怎么利用那些便宜的人类来多快好省地标记数据去训练一些比较单一的模型。而今,似乎只有那些最顶尖、最稀缺的人类标注才能真正为 LLM 带来正向改进。