⚡我们正从“scaling 的时代”迈入“研究驱动的时代”—1130
【0】自今年10月以来,资本市场围绕“AI泡沫论”、“谷歌胜出论”、“TPU vs GPU”等叙事的讨论显著升温,但鲜有对背后成因的深度剖析。我们投资AI的本质,是做多“通胀环节”。2023年至今,以算力为代表的通胀环节之所以持续涌现投资机会,核心在于:1)算力军备竞赛的持续性;2)AI重构生产关系的滞后性。因此,我认为从不同维度审视这些核心逻辑在明年及更远未来是否依然成立,是我们进行AI投资的基石
【1】OpenAI前首席科学家Ilya Sutskever本周在Dwarkesh Patel的播客中,分享了一些异于业内主流叙事的观点,例如对Scaling Law(“大力出奇迹”)持批判性态度——尽管这一点在二级市场讨论度不高。我个人认为,从3-6个月的短周期看,一线研究员和工程师的观点具有较强参考性;但若拉长至2-3年的维度,我们务必也要重视以Ilya为代表的技术奠基人的前瞻性判断...以下是对上述播客的一些要点浓缩:
【2】Ilya认为,我们正从“单纯扩大算力和模型规模”的扩展时代,进入重新强调基础研究、算法与范式创新的新时代。他认为Scaling吸干了房间里所有的空气,导致大家停止了思考。但现在,单纯的Scaling正在遭遇边际效应递减。尽管Scaling确实还能带来进步,它没有停滞(like Gemini 3)。但是,即便我们继续扩大规模,有些至关重要的东西,依然是缺失的
【3】当前的 RL 训练可能会让模型变得过于“一根筋”和狭隘。 RL和自我博弈可以让模型在特定任务上更强、产生多样性,却容易收敛在窄域技巧和“为赢而赢”的策略,而不是广义的通用智能。这解释了为什么模型在基准测试上表现完美,但在推理、泛化和真实世界任务上暴露出评测表现与真实能力显著脱节的问题
【4】人类情感是进化“硬编码”的高效价值函数。情感提供了密集且实时的反馈信号,这极大地压缩了搜索空间,提高了样本效率(人跑到悬崖边会自然因为恐惧而停下来)。未来我们或许不需要像现在这样让模型在稀疏的奖励信号中盲目探索。我们需要找到一种方法,赋予AI类似于生物本能的初始价值函数
【5】真正的突破不在于继续扩大当前这种“暴力试错”的 RL 规模,而在于弄清楚人类/生物是如何通过进化获得那些 “先验知识” (Priors) 的。 未来的 RL 需要更像生物的进化过程,或者是能够模拟出类似人类情感/直觉的“价值函数”,从而实现从极少量数据中快速、鲁棒地学习。Ilya认为这么一个能够像人类一样学习、并因此变得超越人类的系统可能还需要5到20年
HYJSJ DJN⚡⚡⚡