即刻App年轻人的同好社区
下载
App内打开
陈南
125关注590被关注0夸夸
🌊 高强度探索AI应用层ing
🤔 Curious 24/7
🔍 关注人性、产品与商业
🤖 AI应用产品经理
陈南
2天前
上周的结尾,我提了一个开放问题——“按照AI现在这个发展速度,几年后,什么样的经验是需要我们教给AI的?” 这周,随着OpenAI o1的发布,我有了新的思考:随着模型越来越强大,我们需要教给AI的东西将越来越抽象。

在我看来,大模型的能力主要体现在基础知识和推理能力两个方面。虽然业内对大模型在通用领域的应用越来越有信心,但在垂直领域仍存在挑战,因此本文将重点讨论大模型在垂直领域的应用。

在执行垂直领域任务的时候,有领域知识很重要,在复杂度比较高的任务中,推理能力也非常重要。按照目前的趋势,在推理能力上,前沿实验室的模型长期会具有绝对优势,而垂直领域知识的植入,目前有两种方式,一种是把领域知识全部放在上下文里,让模型进行in-context-learning;另一种就是自己训练、调整模型。

我比较看好第一种,始终让自己的产品能接触到最先进的推理能力更重要,我只需要把领域知识放在context中,不依赖任何一个模型,等新模型出来,我马上就可以切过去,并且in-context-learning的成本也在指数型降低,使用这种方式,成本会越来越低。

而如果使用第二种方式自己训练模型的话,存在几个问题:
首先,微调模型需要针对模型去准备相应的数据集,可能今天准备的数据对这个模型有效果,但换个模型就不work了,需要重新根据新的模型准备数据,切换成本很高,如果使用第一种方式,则只需要切换模型,对prompt不需要过多的修改,切换成本很低。

其次,微调具有一定的不可逆性,而且是个黑盒(我们不知道自己输入的数据集产生了多大效果),有可能一开始微调模型的时候,是根据产品策略A来准备的数据集,但是过了一段时间,切换了产品策略,那就需要让模型按照产品策略B来进行回复,这个时候面临一个选择:是重新开始训呢?还是基于之前的模型继续训呢?每种选择都意味着巨大的成本,而如果使用in-context-learning,更改产品策略的成本很低,只需要调整一下prompt即可。

此外,很多模型不是一开始就允许微调的。比如说,GPT-4o于2024年5月13日发布,8月20日,官方才支持对这个模型进行fine-tuning。对于AI赛道的产品来说,3个月,如隔三秋。正如之前所讨论过的,对AI Native应用来说,模型能力很大程度上决定了产品效果。如果新一代模型有了很强的能力提升,竞争对手使用的是in-context-learning,而我们的产品高度依赖fine-tuning,那就意味着竞争对手在用户体验上会领先我们3个月,等到时候支持fine-tuning了,新一代模型可能又出来了,这个时候就很尴尬,我是应该继续fine-tune旧模型呢?还是等新的模型支持fine-tuning呢?如果按照这种方式,用户体验可能永远也追不上竞争对手。所以,长期来看,fine-tuning这种方式在商业竞争上是不可行的,会让自己处于一个非常被动的地位。

顺着逻辑推导到这里,相信我们应该都已经意识到in-context-learning是未来的趋势,要不然Google、Anthropic、OpenAI也不会在long context上投入这么多的精力。那么问题就来了,当我们想要在context中向模型传授领域知识时,应该怎么做呢? 在之前,one-shot、few-shot是非常典型的解决办法,在context中,除了具体的执行指令外,还提供足够多的sample,让模型按照这些sample来推理回复,在常见的一些任务下表现效果都不错,一些benchmark也会采用few-shot来提高模型的表现。但是OpenAI o1的发布给我带来了新的思路,o1通过让模型在正式回答问题之前学会了使用Chain-of-thought进行“慢思考”,实现了模型能力的巨大跃升,我仔细观察过一些“慢思考”的内容,模型已经学会了像人一样,在回答问题之前,反复推敲自己的想法、排除可能错误的选项、顺着逻辑推导新的内容,换个角度讲,它会仔细思考我们给它的prompt,在“慢思考”中榨取尽可能多的信息量。这意味着什么呢?以后,我们可能不需要向模型说一些很细节的内容,而是说一些比较宏观、抽象的指示,它会结合自己的内在知识库,尽可能多地从抽象信息中推导出合理的细节。

我举一个例子,比如说我做了一个AI教师,现在AI需要给学生上一节数学课,内容是两个数的乘法,放在之前,我需要给模型提供一个非常详细的教案,让它完全按照我的意思去讲。但是以后,我可能只需要简单的一句话,“用耐心的语气,向一名二年级学生讲授两个数的乘法,这个学生具有XXX特点,请根据他的个人性格调整教学策略。“ 在给学生进行教学的过程中,AI会根据学生自身情况和当前教学情况,实时“慢思考”出新的策略。

为什么我认为在垂直领域给LLM提供抽象信息的方式会work呢?其实是源于芒格的多元思维理论,个体每多接触一个领域的信息,对TA来说带来的价值可能不是加法,而是乘法,我认为对于大模型也是一样的。在模型训练过程中,跨领域的知识会进行融合,不是孤立存在的,也就是说,这个模型现在是一个“通才”,当“通才”需要让自己擅长某些垂直领域时,可能不需要从0开始一点点学,只需要提供一些重要的顶层抽象信息,它就可以get到这个领域的关键点,然后根据这些信息实时推导出细节。

简单来讲,在Training Scaling Law时代,大家关注的是如何将尽可能多的信息无损压缩进模型里。在Inference Scaling Law时代,或许我们也需要开始关注,如何将人脑中的经验抽象成凝练的理论,让模型进行解压缩,变为可执行的细节,并低成本地规模化,创造更大的经济价值。
05
陈南
11天前
周末听了Andrej Karpathy近期做客《No Priors》的一期播客,让我意识到一件事:大模型时代,很多职业将从前台转向后台,个人经验可以演变成一个产品由AI代你对客。

让我们先从Andrej聊起,他本来是OpenAI的创始成员之一,后来加入Tesla负责研究自动驾驶,2023年回到OpenAI研究LLM,2024年离职,创办了专注于AI教育的公司Eureka Labs。他在AI领域有着非常丰富的经验,也经常在Youtube上分享一些AI相关的知识,有种“AI界菩萨”的感觉。他在这期节目里分享了他做AI教育的一些思路,核心观点可以总结为:

「在过去,一个老师要给学生上课,那TA就得准备一份教案,然后亲自去当面给学生传授知识。但是在LLM时代,我们可以尝试的事情是,让这个老师写一份教案,然后让AI根据这份教案,去给无限多的学生一对一讲课。简单来说,在过去,老师在前端直接面向学生,在未来,老师更多地是在后端打磨经验和教案,由AI去前端面向学生。」

在AI教育这个例子里,其实已经充分利用到了大模型的3个基本特性:
1. 类人级智能:给学生教课的前提,是能够充分理解教案中的内容,如果大模型理解不了教案,那自然也无法根据教案中的指引和思路去给学生传授知识。
2. 超人级的信息吸收速度:与学生的每次对话,都需要结合教案中的全部内容进行回答,并且需要准实时地进行回复,对时延的要求很高。如果大模型每次回复学生都需要1小时的时间充分理解教案,那这个场景自然也不成立。
3. 低廉的边际复制成本:一个老师同一时间只能面向1个学生或者1个班的学生进行授课。如果是1对1,价格很昂贵,动辄1小时三四百元。如果是1对多,则效果没那么好,没有办法针对每一个学生的特点专门去调整教学方式。而有了大模型,则可以以一节课几块钱、甚至几毛钱的成本完成授课,并且完全是一对一的教学,会根据学生的学习情况实时调整教学策略。与此同时,对于教师来说,一旦教案编写好了,那就可以开始无限低成本复制。

当我们推导到“写一次教案,可以无限低成本复制”这一步时,似曾相识的感觉出现了,ToC互联网产品不也是这样吗?搭建好一个平台后,便可以用相当低的边际成本接待新的用户。那么,这两者区别在哪里?让我们还是以AI教育为例。

在ToC互联网产品中,对客的主体是产品,但在AI教育中,用户感知到的是角色。比如说,我去美团点外卖,虽然它的背后也有着无数的人在支撑,但是我更多地感受到的是我在跟这个公司的产品打交道。但是,在AI教育平台上课时,我感受到的会是——对面是一个老师。这是由大模型产品的基本属性决定的,大模型能够像人一样交流,这使得用户不自觉地将其拟人化。尤其是随着模型一步一步升级,它会越来越擅长模仿人,这是我们无法忽视的一个趋势。所以,当对客主体变了之后,产品的设计思路也需要跟着一起调整,这是一个全新的话题,值得深入去思考。

让我们回到主题,从AI教育的例子里我们可以很明显的感觉到,老师在这种产品形态下,已经从前台转向了后台,而对于这个老师来说,自己的个人经验凝结成了教案,被AI教育平台打包成一个产品,由AI低成本地面向无数学生兑现价值。

其实很多行业也是类似的,比如说程序员,在今天是由自己直接向团队提供服务,那如果有一个AI可以帮TA处理这些沟通、协调的细节,自己专注于如何让AI更懂部门的业务、架构设计和系统的可维护性,是不是也是一种形式的从前台转向后台呢?根据自己的经验所打造的AI,便是自己的产品,可以直接面向外部提供服务。

这个话题非常有意思,针对每个行业,都值得顺着这个思路去思考未来的形态。那么,就有了一个值得深思的问题:

按照AI现在这个发展速度,几年后,什么样的经验是需要我们教给AI的?
12
陈南
18天前
半个月前分享了一段思考,主题是「LLM使用成本还比较贵的时候,可能是最适合入场的时候」。近两周Cursor的爆火,让我有了新的思考:LLM能力还比较弱的时候,可能也是最适合入场的时候。

Cursor最早进入我的视野是在2023年4月份左右,当时Cursor刚推出不久,底层用的是GPT-4模型,现在饱受好评的Chat功能,当时其实已经具备了,但是我当时体验完之后,效果并不是很惊艳。用它来写点玩具代码片段是可以的,但当我尝试用它去给稍微大点的项目做新功能的开发时,就发现模型的能力严重限制了它。主要是两个问题,一是上下文不够长,当时它使用的是8K上下文的GPT-4,这就决定了它能够理解的背景信息非常有限,很难在这么短的上下文里去塞给它足够的代码和文档;二是GPT-4本身的幻觉比较严重,当你让它帮你写代码时,经常出现Bug,或者用了一些根本不存在的库或方法,导致要花很多精力去检查、修改它写的代码,反而可能拖慢了效率。

然而,仅仅是升级了一个模型,一切都变了。今年7月21日,Anthropic发布了Claude 3.5 Sonnet,其编码能力大幅提升,并拥有200K长度的上下文。当Cursor把底层依赖的模型换到了3.5 Sonnet之后,体验有了质的飞跃。我们对比一下之前影响其体验的两大问题:首先,上下文长度从8K提升到200K,实现了数量级的飞跃,可以在如此大的上下文里塞下数十个代码文件及文档,让模型充分理解项目背景、代码结构和编码风格;其次,Claude 3.5 Sonnet在编码时的幻觉惊人地少,不知Anthropic使用了什么技巧。大多数情况下,它写出的代码无需任何修改即可运行,我猜这也是Anthropic在其官方Claude应用里自信地开放Artifacts功能的原因——它在Artifacts中写出的网页,在大多数情况下可以一次性跑起来,没有任何语法错误。当这两点问题都得到极大改善后,神奇的现象发生了:以前我们使用AI编码时,几乎是抱着非常提防的低预期心态,但现在,我们可以很自信地让Claude发挥作用,我只需要提供必要的引导即可。

刚刚用了比较多的篇幅来讲Cursor,主要是想说明一个以后我们可能会经常看到的现象:如果你的应用使用今天的模型勉强能跑,那么下一代模型可能会让它的体验有质的飞跃。(这个观点来自Y Combinator的创始人Paul Graham,也就是《黑客与画家》的作者) 就像Cursor一样,去年用GPT-4的时候,只是勉强感觉这个模式可能是work的,效果很一般,但今年有了新一代模型的加持后,体验上犹如跨越了一道鸿沟,从barely works变成了works really well。

过去的一两年里,我们总听到大家在谈AI Native应用,那AI Native应用的一个基本特点是什么呢?模型越弱,应用体验就越差;反之,模型越强,应用体验就越好。如果一个应用的体验与模型的水平关系不太大,那可能说明这个应用还不算是真正的AI Native应用,而Cursor就是一个非常典型的AI Native应用。那么我们来思考一个很有意思的问题:如果我是Cursor的创始人,当我看到今天Claude 3.5 Sonnet的表现之后,才去投入精力做Cursor,还来得及吗?我的答案是No,已经太晚了。

这么说可能有点抽象,我们来打个比方:假如我是一家公司的创始人,我在招人的时候发现一个年轻人很有潜力,但其他公司并没有识别出他的潜力,目前他也还没做出什么成绩,我当时想,“目前我们公司需要的是能干活的人,他经验太少,我等他成长起来再联系”。三年之后,他已经在行业内赫赫有名,我再去联系他时,发现很多家公司都在开高薪挖他,我已经没有机会了。

在做AI Native应用时,几乎面临一样的情况。当我们发现模型在某方面的潜力有一些苗头时,就应该准备入场了。一开始用当前的模型验证时,可能会发现体验没那么好,这很正常。当我们的应用研发得差不多的时候,可能新的模型刚好出来,我们有可能会惊喜地发现,应用体验有了质的提升。那如果提升不太大怎么办呢,那就继续再等一等。当然,要超前,但也不能太超前,否则可能还没等到新模型出来就撑不下去了。

总而言之,见微知著,未雨绸缪,剩下的,就交给时间。
1125
陈南
1月前
LLM使用成本还比较贵的时候,可能是最适合入场的时候。

最近用Claude做一些需要较多轮对话才能完成的任务时,经常发生的一种情况是,使用到后面,上下文已经很长了,每次让它回答问题会比较耗费资源、比较贵,就开始想这样是不是有点太浪费了。然后,就会想办法总结一下这段对话的内容,然后在新的一个对话里继续跟它聊。这样做确实是便宜了,但因为经过压缩后,信息已经有损失,很明显感觉没之前那个对话有默契了。

这个事情之后,我就开始想,有没有什么东西是一开始大家觉得很贵,都不怎么用,但是随着科技的发展成本有了指数型降低,然后取得了广泛使用的?

仔细想下来,发现有不少,我举两个跟移动互联网息息相关的例子:

1. 手机流量曾经是个很贵的东西,在5元30M的时代,用流量下载一首歌曲都是一种奢侈,随着运营商网络从2G到3G再到现在的5G,1GB流量的价格已经降到了1元左右。从166元/GB到1元/GB,取得了指数型的成本降低。大家可以想一想,流量作为手机互联网的重要基建,如果没有这么便宜的流量,还存不存在抖音?
2. 2007年第一代iPhone推出的时候,最大只有8GB存储空间,售价599美元;2023年, iPhone 15 Pro 1TB存储空间版本,售价1499美元;16年间,存储空间有了128倍的提升,价格却只有之前的2.5倍,这个价格对比放在安卓阵营会更加夸张。正是因为存储成本不断降低,使得越来越多的人愿意用手机记录精彩瞬间,愿意用手机来工作和使用各种各样的大型APP方便自己的生活,这些放在今天大家司空见惯的事情,在那个流量成本、存储成本高昂的年代,有几个人敢想?

时至今日,大模型行业的从业者基本上都认同长上下文、多模态输入输出是LLM未来必备的特性,并且市面上也已经有几个很不错的百万级上下文的多模态模型。但是在今天成本有些高昂的情况下,大家却对将这些能力投入实际使用显得有些犹豫,都在等成本进一步降下来之后再投入使用。我就开始思考一个问题,如果大家在设计产品的时候总是因为暂时的成本问题而选择不引入一些模型能力,设计产品的思路会不会受到很大的影响?

我的结论是肯定的。如果我们把LLM比做一个人,那长下文就相当于这个人有着非常好的记性,可以记住很久之前的东西。多模态输入能力就更厉害了,之前只能输入文本时,它相当于是一个只有嘴,没有耳朵和眼睛的人,现在有了多模态能力之后,它可以开始看到这个世界的丰富多彩,可以听懂这个世界的鸟语花香。如果现在把这两个能力差距很大的人塞给你,让它们给你打工,必然发生的事情是,你从不同的人身上看到的是完全不同的潜力,那在让它们做事时,也会分配截然不同的任务。

用一句简单的话来讲,只有当我们把大模型的各种现有能力和未来的能力都考虑进来去规划产品的时候,我们的想象力才不会被束缚。

从这个角度讲,如果我们明确知道,虽然现在应用模型成本高,但是未来随着底层技术的迭代,这些成本很快将会以指数型的速度降低(过去一年大模型的成本降低就已经提供了一个很好的参考),那么在一开始设计产品的时候,就不要太考虑成本的问题,这些都是很快会被解决的问题。

一开始很烧钱是没错,但正因如此,很多玩家已经被成本问题劝退了,等他们反应过来的时候,很可能你已经领先很久了。

这种情况正应了巴菲特的名言:别人恐惧,我贪婪。
31
陈南
1月前
搜索动作在AI时代将会被赋予新的人机交互含义

一年半之前,有人认为ChatGPT的出现将预示着Google的终结,我当时认为这是危言耸听,Google建立起的庞大搜索帝国不会轻易倒塌,当Google愿意克服创新者的窘境,使用大模型去重构自身时,赢家还是它。但是,前两天回头一想,发现我这几个月很少用Google了。不是因为Google不好用,而是Claude 3.5 Sonnet直接交付的产出效果太好。

举个例子,比如说现在我的任务是搭建一个直播系统的实时评论功能。

之前,我的工作流程可能是这样的:
1. 先搜索Google,“实时评论应该怎么做”,然后看一大堆文章,然后知道我要用Websocket技术,还要建立各种数据库表和后端接口。
2. 然后我再去搜“如何使用Websocket”、“如何建立合适的数据库表结构”、“如何用XX技术搭建后端接口”
3. 然后开始用学到的信息开始设计系统、一行一行进行开发

现在,我的工作流程是这样的:
打开Claude,直接提出我的需求,”我现在要搭建一个直播系统的实时评论功能,你帮我看看怎么搞“,然后它开始直接跟我讲技术方案,我有不懂的就问它,方案确定下来之后,它直接给我输出代码,我只负责复制粘贴。

有没有从这个例子里感受到这种人机交互模式的转变?如果你把Claude的消息输入框看作是搜索框,那用户输入的内容,从「我要查什么」变成了「我要什么结果」。搜索动作本来是完成庞大任务的一个中间环节,为了给这个任务交付结果,用户借助搜索来获取信息。但是,在这种新的模式下,搜索即是结果。那么顺着这个思路,我们来用两个例子说明一下,在AI时代,当用户有需求的时候,可以是什么样:
1. 当小王需要带全家去大理玩,他唤醒AI助手,语音输入“我全家四口人10月3日要去大理玩3天,帮我看看大理古城附近适合我们的民宿”,等了一秒,屏幕上直接展示出符合他要求的房间,点击即可预订。
2. 当小陈家里下午要来客人,她准备做几道菜来招待下,但是还没买菜,她唤醒AI助手,语音输入“我下午要做鱼香肉丝和红烧鲤鱼,没菜了,你帮我看看要买啥。”等了一秒,AI助手向她展示了自己从买菜平台找到的适合的菜品,点击即可一键下单送货到家。

看完这两个例子,你大概已经对这种模式转换有了一个比较清晰的概念。那我们回到正题,在这两个例子里,搜索这个动作,它履行的还是搜索的职责吗?当然不是,它已经从「你帮我找点信息」变成了「你帮我做点事」。简单的几个字,就已经有了质的不同,这是人机交互模式的一次重要转变,它可以让用户将更多的繁杂脑力活动外包出去给AI,留下更多的精力来思考更重要的事情。

那么,就有了一个很有意思的问题,到那时候,搜索这个动作,还能叫搜索吗?
02
陈南
2月前
周末读了一篇科幻作家Neal Stephenson在1999年写的长文《In the Beginning was the Command Line(起初是命令行)》,里面提到的一件事让我印象深刻:
一开始,人们与计算机打交道都需要通过命令行,又复杂又抽象。1983年,乔布斯团队借助各种比喻,通过GUI,将抽象的计算机相关操作与人们平时的生活相关联,比如说删除文件只需要将文件拖到垃圾篓里,大幅降低了普通人与计算机打交道的难度。自此,开启了计算机时代的新纪元。

交互非常重要,不仅是大的交互模式,小的交互细节也非常重要,对于任何一个产品来说,每一个让用户感觉别扭、不自然的交互方式,都有可能让一部分用户永久流失。

回到今天,当LLM带来的类人级智能可以低成本触达每一个人时,最常见的LLM交互方式是通过文本输入指令(Chat),这其实是很接近于命令行的一种交互方式,组织文本语言去和机器交互会有很高的认知成本,从某种角度讲是交互模式的开倒车。

那么,下一代交互什么时候出现?我有一种思路。

命令行进化为GUI,一方面是源于操作系统创造者思维方式的转变,另外一方面是源于硬件水平的大幅提升。对于LLM而言,很有可能是类似的。思维方式上,需要从「人类开发的固定UI」转换为「AI实时生成的动态UI」;模型上,需要LLM有足够长的记忆、足够多的输入输出模态、足够高的推理能力、足够完善的世界观;硬件上,如果要达到最好的交互体验,需要足够快的输出速度。

目前来看,最大的限制条件是硬件,Groq已经能够让Llama3.1 8B跑出750 token/s的速度,但如果有一天万亿参数的GPT-4也能跑出750 token/s的速度,大家做东西的思路将会有很大不同,速度很关键。就像是显示器一样,当整个世界只存在1秒刷新1次的显示器时,很少有人能想象到,当显示器的刷新率提高到60Hz时,能解锁出的新世界具体会是什么样。
11
陈南
3月前
我用40分钟时间,让Claude 3.5 Sonnet使用Artifacts做了一个“跳一跳”游戏。
全程是我在提需求,AI一分钟之内给出修订后的游戏,沟通过程丝般顺滑,朋友们,这才是真·人人都是产品经理啊🤣
00:19
03
陈南
3月前
AI提效工具实质上是将用户的一部分劳动环节外包。
比如说,一开始可以由AI承担30%,慢慢地,又提升到可以承担70%,在这个过程中,用户确实获得了效率的提升。
但当AI承担的比例到达100%时,就完成了对人力的完全替换。
00
陈南
4月前
聊天机器人和AI助理的区别是什么?
当聊天机器人能够连接现实世界的时候,它就变成了AI助理。
00
陈南
4月前
之前的观点再一次应验,多模态输入输出发布了。
「既然通用化(AGI里的G-General)是OpenAI的目标,那么更高的推理能力、更长期的Plan能力、更大的上下文、更少的幻觉、更多的输入输出模态必然是他们的Top Priority,在规划垂直化领域产品的时候,一定要将未来模型演进的方向考虑进去,这样才能最大程度避免被降维打击。」

陈南: 什么是OpenAI不会涉足的事情?前OpenAI开发者关系负责人Logan给出了他的看法。 这两天应该很多朋友都看到了Logan离职的消息,正好我看到有人在转发Logan三周前做客Lenny's Podcast的一期节目,认真听了下这期播客,没想到开头就听到了很有价值的信息,先摘抄我认为最有价值的一部分对话(为了便于阅读,对文本做了优化): 主持人: 「当人们考虑构建像TL Draw这样的产品时,他们应该考虑什么?OpenAI不会涉足的领域有哪些?OpenAI又会为我们做些什么?我们应该如何思考在哪些方面不会被OpenAI搅局,同时也要知道他们可能会改变主意?」 Logan: 「这是一个很好的问题。我认为我们深度专注于非常通用的用例,比如通用推理能力、通用编程和通用写作能力。当你开始涉及一些非常垂直的应用领域时,情况就有所不同了。一个很好的例子是Harvey,它是一个法律AI的用例,他们在构建定制模型和工具来帮助律师和法律事务所的人员。这说明我们的模型可能永远无法像Harvey正在做的那些事情一样有能力,因为我们的目标和使命是解决非常通用的用例,然后人们可以在此基础上做微调,构建他们自己的定制用户界面和产品功能。 我非常理解并为那些正在开发各种通用产品的开发者感到兴奋。我与许多正在开发通用助手、通用代理之类产品的开发者交流过,我觉得这很酷,也是个好主意。但他们面临的挑战是,最终会在这些领域与我们直接竞争。我认为有足够的空间让很多人都能成功,但当我们最终推出某种通用代理产品时,你们也不应该感到惊讶,因为我们今天就在用GPT构建这样的东西。不过,我们不会推出一些非常垂直化的产品,比如AI销售代理,那不是我们努力构建的方向。拥有某些领域专业知识并对那个问题空间真正感兴趣的公司,可以深入研究,利用我们的模型,继续保持领先优势,而无需自己投入所有的研发努力。 如果你想尝试解决非常通用的问题,如果你想构建能与ChatGPT这样的产品竞争的下一代通用助手,它必须有非常彻底的差异化。人们得真的惊叹说:"哇,这解决了我在ChatGPT上遇到的这10个问题,所以我要去试试你们的新东西。"否则,你就只是在投入大量的工程和研究努力去打造一个了不起的产品,而这只是创业时的常规挑战。要想与ChatGPT那样的产品竞争,实在是太难了。」 Logan的观点总结一下就是「OpenAI未来提供的将是通用化解决问题的能力,而不是仅仅面向某个垂直细分领域」。怎么理解这里的通用化? 我举两个例子来谈谈我的理解: 1. 如果把OpenAI打算提供的能力比做一个人,那么TA会是同时了解多个领域的通才,用芒格的话说,是个具有多元思维的人。但如果细分到某个领域,TA可能短期内无法超过最顶尖的那批人。 2. 如果把OpenAI比做是微信,那么他们可能会做的东西是小程序平台,但不会亲自下场去做拼多多小程序或者美团外卖小程序。 看完上面的话,有些朋友可能就会想,“那我不去做平台不就好了嘛,我就去做垂直领域”,但是,真的有这么简单吗? 让我们来假设这样一种场景: 创业者小北怀着只做垂直领域的想法,打造了一款面向创作者的AI神器。它可以根据用户提供的主题写出一篇视频脚本,然后根据视频脚本生成多张AI图片,再用另一个技术让图片动起来变成视频,最后将这些视频拼接起来,配上AI配音,生成一个完整的视频。这个产品最大的亮点是将复杂的视频创作过程自动化,用户需要做的只是给它提供一个主题。 然后这个产品上线了,一切都很顺利,很快就吸引到了很多用户,拿了更多融资,计划扩大规模,空气里洋溢着快活的氛围。 3个月后的一天,小北半夜里被投资人的电话吵醒,远在16个时区之外的CloseAI刚刚发布了TPG-6模型,可以输入文本、视频、音频,也可以输出文本、画面非常稳定的视频和内容清晰的音频。 接下来的剧情你大概也能猜到了,小北的产品被新模型降维打击,不久之后走向了结局。 刚刚这个故事想讲的东西很简单,既然通用化(AGI里的G-General)是OpenAI的目标,那么更高的推理能力、更长期的Plan能力、更大的上下文、更少的幻觉、更多的输入输出模态必然是他们的Top Priority,在规划垂直化领域产品的时候,一定要将未来模型演进的方向考虑进去,这样才能最大程度避免被降维打击。 如果想象未来的模型是什么样有点困难的话,你可以尝试从逆向角度去思考一个很重要的问题: 在模型一路狂飙进化的过程中,有什么东西是不变的? 当然,除了模型层面的降维打击,应用层面肯定也会存在降维打击,篇幅原因这里不再赘述,后面有机会再分享。 最后说点题外话,ChatGPT出现之后的这十几个月里的确是充满了兴奋与惊喜,在人类以前所未有的速度通往AGI的路上,祝各位朋友都能找到合适的座位,一起奔赴未来。 PS.这期播客的信息量很大,里面还有包括组织架构、产品未来演进等等方面的内容,推荐有兴趣的朋友完整听一下

00