Openai 的o1，被王小川誉为新阶段的GPT-3[1]：

即刻App年轻人的同好社区

下载

杨昌

2年前

Openai 的o1，被王小川誉为新阶段的GPT-3[1]：

虽然离GPT-3.5和GPT-4突破性有距离，没有引起大众的热议，但在业内已经很震撼了。

比如，六小虎中3 家的老板（百川、月暗和阶跃），都在公开点赞o1。

因为，它所代表的技术突破，确实提升了AI上限，带来了新的范式。[2]

【那么，这又关我们普通人什么事呢？】

这周，我基于对多位AI业内大咖讨论的梳理，总结出了一个关键词——“自动化”。而随着技术的持续发展，自动化又会分为3个阶段：

一、初级自动化：现在就能做

1、传统自动化工具情况

“让它解放你的双手，让它释放创造力，让它助你摆脱机械般工作，让它注入效率，让你成为自己。”

这是影刀RPA官网上的一段广告词，却也是初级自动化的生动写照。

对于重复流程化的工作，RPA技术已经非常成熟了。但为什么RPA 的普及率这么低呢？这跟它的上手难度高、报错情况多和不够智能等不足有关。

2、技术突破后的新解法

而以o1为代表的强化学习技术的突破，已经比较好地解决了这个问题。

在云栖大会上，Kimi 老板亲口说，引入Claude 3.5 sennet后爆火编程工具Cursor，用自然语言（如中文）直接写代码，已能击败专业编程选手。[2]

易用性方面，国外也爆出了不止一个8岁小朋友，直播使用Cursor编程，在数万网友的围观下完成小作品。

代码生成能力的提升，意味着我们可以更快地开发和部署新的工具。经过我最近一个多月的测试，发现配合上AI 编程，RPA 的易用性和智能程度，确实能大大提升。

具体的经验，我总结进这篇200多赞的即刻帖子了：m.okjike.com

3、补充：非结构数据的分析

在初级自动化阶段，还有个「很重要、其实已经做到、但却被忽略了」的技术突破，就是大语言模型增强了对非结构化数据的分析能力。

AI 早就可以从长篇小说、市场报告、社交媒体帖子等多样化的数据源中，提取有价值的信息，并将其转化为可量化的指标，为个人和公司决策提供数据支持。

以上这几项能力结合起来，就能让大模型可以在复杂的商业环境中发挥更大的作用：

它们不仅可以帮助大家自动化许多「之前需要人工处理的重复流程化的任务」，从而提高效率，降低成本。甚至，还有可能带来新的业务洞察。[3]

二、中级自动化：近一两年或将实现

1、o1让强化学习更上一层楼

之前的大语言模型，虽然能够胜任局部生成或简单的逻辑推理任务，但在处理包含多个步骤的复杂问题时就显得力不从心，因为它们接触到的这类数据太少，始终只能做个临时帮忙的“小时工”。

o1在一定程度上，找到了这个问题的解决方案。

硅基流动袁进辉老师，在接受《晚点》播客的访谈中提出，o1跟其他的强化学习区别最大的地方，是用合适的方式生成 CoT（思维链），提升大模型的长链路规划和推理能力。

如果随着o1 正式版本的推出，或者在其后续的版本当中，能进一步提升这俩能力。那么，很多现在停留在demo 层面跑不通的 AI Agent，就有希望跑得通了。[4]

2、自动化有望从「任务执行」进化到「智能决策」

AI Agent 一旦跑通，自动化就可以从简单的「任务执行」，进化到「智能决策」。

规划阶段，业务团队可以通过AI Agent，进行自动规划和编排任务，使系统能够更智能地应对各种情况。

执行阶段，因为o1 能降低幻觉，AI Agent开始可以处理和维护复杂的、长期运行的业务流程，确保其稳定性和可靠性了。[5]

3、补充：o1能提高准确率的原因

o1 及其后续版本能降低幻觉这一点，我也是从前OpenAI 研究员吴翼老师的访谈中了解到的。

主要有两点：

首先，幻觉是因为之前的大语言模型不知道因果性，它只知道相关性；而强化学习通过探索和奖励机制，能帮助大语言模型建立因果推理能力，从而减少幻觉问题。[6]

其次，不同于之前接收到问题只进行一次推理就给出答案，o1会将这个初步结果与思维链结合起来，再次输入给自己，并在这个基础上进行多次反思和确认，这种接近于人类“慢思考”的方式，相对能给出更准确的结果。

三、高级自动化：能战胜“世界冠军”的某领域 AlphaGo

1、有明确对与错和封闭结果的领域

强化学习，已经取得非产好的结果。

比如说，2016年3月，与韩国围棋世界冠军李世石的比赛中，AlphaGo以4胜1负的优势获胜；2024年7月，AlphaGeometry更新版只差一分，就可以拿到 IMO（国际数学奥赛）金牌。

在理工科，o1也也去得了不错的成绩：在解决博士水平的物理问题时，GPT-4o还是“不及格”59.5分，o1一跃来到“优秀档”92.8分；在刚结束的2024 IOI信息学奥赛题目中，如果允许o1每道题尝试10000次，就能获得362.14分斩获金牌。

2、在没有明确对与错和封闭结果的领域

比如人文领域，强化学习能否发展出能战胜“世界冠军”的某领域 AlphaGo?

我们也不用太气馁，至少百川的王小川持乐观态度。在接受腾讯科技访谈过程中，他举了个百川的例子：

“我们在Baichuan3 发布做了一个实验，用强化学习训练诗词。做强化学习之前要靠金标准，是在能绝对判断对错的地方训练，所以通常要做理科任务，数学、代码是可以做的。文科上没有对错判断的标准，写得好不好挺难让机器校对。所以，我们想在文科里是否也有一个Reward Model（奖励模型），于是想到用唐诗和宋词。

尤其是宋词，大家写起来比较难，它的字数、平仄、韵律、对仗有很多要求。但是要求反而是一种规则。当时我们在训练模型的时候，不是说让机器仿照人这么写诗词，而是让机器写诗词之后，我们用一个程序模型来判断诗词写得是否符合字数、平仄、韵律和对仗。预训练时就做了这样一个实验，取得了不错效果。”[1]

到那个阶段，创新工场联合CEO汪华老师在直播中聊到的“将给世界上 70% ~ 80% 的事情带来自动化”，或许有可能实现。[7]

———

[1]Founder Park《o1发布后，信息量最大的圆桌对话：杨植麟、姜大昕、朱军探讨大模型技术路径》mp.weixin.qq.com

[2]Founder Park《o1发布后，信息量最大的圆桌对话：杨植麟、姜大昕、朱军探讨大模型技术路径》mp.weixin.qq.com

[3]琢磨事《未来的企业（暨9.20杭州AI碰撞局小记）》mp.weixin.qq.com

[4]晚点LatePost《晚点播客丨OpenAI o1 如何延续 Scaling Law，与硅基流动袁进辉聊 o1 新范式》mp.weixin.qq.com

[5]澜码科技《AI Agent如何实现业务流程自动化及价值体现》mp.weixin.qq.com

[6]张小珺|商业访谈录《和OpenAI前研究员吴翼解读o1：吹响了开挖第二座金矿的号角》www.xiaoyuzhoufm.com

[7]极客公园《预训练的 Scaling Law 正在走入死胡同，o1 让更多创业公司重新复活》mp.weixin.qq.com

31 014

来自圈子

AI探索站

113862人已经加入