Openai 的o1,被王小川誉为新阶段的GPT-3[1]:
虽然离GPT-3.5和GPT-4突破性有距离,没有引起大众的热议,但在业内已经很震撼了。
比如,六小虎中3 家的老板(百川、月暗和阶跃),都在公开点赞o1。
因为,它所代表的技术突破,确实提升了AI上限,带来了新的范式。[2]
【那么,这又关我们普通人什么事呢?】
这周,我基于对多位AI业内大咖讨论的梳理,总结出了一个关键词——“自动化”。而随着技术的持续发展,自动化又会分为3个阶段:
一、初级自动化:现在就能做
1、传统自动化工具情况
“让它解放你的双手,让它释放创造力,让它助你摆脱机械般工作,让它注入效率,让你成为自己。”
这是影刀RPA官网上的一段广告词,却也是初级自动化的生动写照。
对于重复流程化的工作,RPA技术已经非常成熟了。但为什么RPA 的普及率这么低呢?这跟它的上手难度高、报错情况多和不够智能等不足有关。
2、技术突破后的新解法
而以o1为代表的强化学习技术的突破,已经比较好地解决了这个问题。
在云栖大会上,Kimi 老板亲口说,引入Claude 3.5 sennet后爆火编程工具Cursor,用自然语言(如中文)直接写代码,已能击败专业编程选手。[2]
易用性方面,国外也爆出了不止一个8岁小朋友,直播使用Cursor编程,在数万网友的围观下完成小作品。
代码生成能力的提升,意味着我们可以更快地开发和部署新的工具。经过我最近一个多月的测试,发现配合上AI 编程,RPA 的易用性和智能程度,确实能大大提升。
具体的经验,我总结进这篇200多赞的即刻帖子了:
m.okjike.com3、补充:非结构数据的分析
在初级自动化阶段,还有个「很重要、其实已经做到、但却被忽略了」的技术突破,就是大语言模型增强了对非结构化数据的分析能力。
AI 早就可以从长篇小说、市场报告、社交媒体帖子等多样化的数据源中,提取有价值的信息,并将其转化为可量化的指标,为个人和公司决策提供数据支持。
以上这几项能力结合起来,就能让大模型可以在复杂的商业环境中发挥更大的作用:
它们不仅可以帮助大家自动化许多「之前需要人工处理的重复流程化的任务」,从而提高效率,降低成本。甚至,还有可能带来新的业务洞察。[3]
二、中级自动化:近一两年或将实现
1、o1让强化学习更上一层楼
之前的大语言模型,虽然能够胜任局部生成或简单的逻辑推理任务,但在处理包含多个步骤的复杂问题时就显得力不从心,因为它们接触到的这类数据太少,始终只能做个临时帮忙的“小时工”。
o1在一定程度上,找到了这个问题的解决方案。
硅基流动袁进辉老师,在接受《晚点》播客的访谈中提出,o1跟其他的强化学习区别最大的地方,是用合适的方式生成 CoT(思维链),提升大模型的长链路规划和推理能力。
如果随着o1 正式版本的推出,或者在其后续的版本当中,能进一步提升这俩能力。那么,很多现在停留在demo 层面跑不通的 AI Agent,就有希望跑得通了。[4]
2、自动化有望从「任务执行」进化到「智能决策」
AI Agent 一旦跑通,自动化就可以从简单的「任务执行」,进化到「智能决策」。
规划阶段,业务团队可以通过AI Agent,进行自动规划和编排任务,使系统能够更智能地应对各种情况。
执行阶段,因为o1 能降低幻觉,AI Agent开始可以处理和维护复杂的、长期运行的业务流程,确保其稳定性和可靠性了。[5]
3、补充:o1能提高准确率的原因
o1 及其后续版本能降低幻觉这一点,我也是从前OpenAI 研究员吴翼老师的访谈中了解到的。
主要有两点:
首先,幻觉是因为之前的大语言模型不知道因果性,它只知道相关性;而强化学习通过探索和奖励机制,能帮助大语言模型建立因果推理能力,从而减少幻觉问题。[6]
其次,不同于之前接收到问题只进行一次推理就给出答案,o1会将这个初步结果与思维链结合起来,再次输入给自己,并在这个基础上进行多次反思和确认,这种接近于人类“慢思考”的方式,相对能给出更准确的结果。
三、高级自动化:能战胜“世界冠军”的某领域 AlphaGo
1、有明确对与错和封闭结果的领域
强化学习,已经取得非产好的结果。
比如说,2016年3月,与韩国围棋世界冠军李世石的比赛中,AlphaGo以4胜1负的优势获胜;2024年7月,AlphaGeometry更新版只差一分,就可以拿到 IMO(国际数学奥赛)金牌。
在理工科,o1也也去得了不错的成绩:在解决博士水平的物理问题时,GPT-4o还是“不及格”59.5分,o1一跃来到“优秀档”92.8分;在刚结束的2024 IOI信息学奥赛题目中,如果允许o1每道题尝试10000次,就能获得362.14分斩获金牌。
2、在没有明确对与错和封闭结果的领域
比如人文领域,强化学习能否发展出能战胜“世界冠军”的某领域 AlphaGo?
我们也不用太气馁,至少百川的王小川持乐观态度。在接受腾讯科技访谈过程中,他举了个百川的例子:
“我们在Baichuan3 发布做了一个实验,用强化学习训练诗词。做强化学习之前要靠金标准,是在能绝对判断对错的地方训练,所以通常要做理科任务,数学、代码是可以做的。文科上没有对错判断的标准,写得好不好挺难让机器校对。所以,我们想在文科里是否也有一个Reward Model(奖励模型),于是想到用唐诗和宋词。
尤其是宋词,大家写起来比较难,它的字数、平仄、韵律、对仗有很多要求。但是要求反而是一种规则。当时我们在训练模型的时候,不是说让机器仿照人这么写诗词,而是让机器写诗词之后,我们用一个程序模型来判断诗词写得是否符合字数、平仄、韵律和对仗。预训练时就做了这样一个实验,取得了不错效果。”[1]
到那个阶段,创新工场联合CEO汪华老师在直播中聊到的“将给世界上 70% ~ 80% 的事情带来自动化”,或许有可能实现。[7]
———
[1]Founder Park《o1发布后,信息量最大的圆桌对话:杨植麟、姜大昕、朱军探讨大模型技术路径》
mp.weixin.qq.com[2]Founder Park《o1发布后,信息量最大的圆桌对话:杨植麟、姜大昕、朱军探讨大模型技术路径》
mp.weixin.qq.com[3]琢磨事《未来的企业(暨9.20杭州AI碰撞局小记)》
mp.weixin.qq.com[4]晚点LatePost《晚点播客丨OpenAI o1 如何延续 Scaling Law,与硅基流动袁进辉聊 o1 新范式》
mp.weixin.qq.com[5]澜码科技《AI Agent如何实现业务流程自动化及价值体现》
mp.weixin.qq.com[6]张小珺|商业访谈录《和OpenAI前研究员吴翼解读o1:吹响了开挖第二座金矿的号角》
www.xiaoyuzhoufm.com[7]极客公园《预训练的 Scaling Law 正在走入死胡同,o1 让更多创业公司重新复活》
mp.weixin.qq.com