即刻App年轻人的同好社区
下载
App内打开
陈南
135关注877被关注0夸夸
🌊 高强度探索AI应用层ing
🤔 Curious 24/7
🔍 关注人性、产品与商业
🤖 AI应用产品经理
陈南
18天前
前段时间分享过“感觉”在购物决策中的重要作用。最近一直在读尤瓦尔赫拉利的新书《智人之上》,有了新的视角:人的感觉不只是一个主观感受,还能够塑造新的现实。

怎么理解呢?我们先从一个简单的场景开始,比如说,当你有一天无聊,点进了一个抖音的直播间,正好他们在介绍一款无骨凤爪,主播绘声绘色的描述和实物展示,让你口水直流,在「馋」的驱使下,你下单了。在这一刻,你的感受演变为了一个真实的行动,它产生了一个真实的线上订单,塑造了新的现实。

当然,这种情况我们都能理解,大多数的购物行为都是如此。

让我们来想一下更复杂的情况,有一天你突然穿越到了远古时代,那个时候没有货币,你需要用贝壳来跟别人交换物品。那这里就有一个问题,为什么贝壳可以作为媒介用来交易?因为你们都认为它有价值。当你们都认为它一文不值的时候,它便失去了交易媒介这个用途。在这个场景中,多个人共同认为贝壳有价值,因此,人们可以基于这种“共同感觉”来塑造新的现实。现代货币、比特币、房地产等等皆是如此。

这种视角不仅可以用来看经济学,还可以用来看社区型互联网产品。

百度贴吧和Reddit在这方面做得比较极致,每一个细分领域的贴吧,都聚集了一群拥有共同爱好的用户。这些用户一开始是怎么聚集起来的呢?是因为有着共同的感受,包括认同感、兴奋感、愉悦感。让我们从「现实」的视角来看社群的演进:
* 一开始,用户因为感觉聚集在一起,形成线上虚拟社群,产生了第一层现实。
* 有些时候,用户们会因为集体情绪的发酵和爆发,产生例如「帝吧出征」的大范围线上行动,这会产生第二层现实。
* 如果继续发展,这种集体认同感可能会产生类似于「内涵段子」用户当年大规模在后车窗贴logo的集体线下行为,产生第三层现实。
* 下一步,可能会诞生集体线下组织,产生第四层现实。
每一层递进,都是在感觉的驱使下创造新的现实,并且越来越具像化。

越具像化,用户对平台的感情就越深, 但是,也意味着平台的触手越来越难以触及,维护成本会越高,甚至可能会脱离平台所能掌控的范围,需要谨慎把控尺度。

从这种视角看「众志成城」这个成语,就发现它不仅是个精神层面的比喻,也可能演变为现实。
11
陈南
1月前
NotebookLM最近非常火,从我的角度看,这个应用之所以能够火,从根本上讲是通过科技的革新实现了稀有资源的平民化。

如何理解这一点呢?我们做一个假设,如果现在不存在NotebookLM,我如果要做一期播客,需要哪些资源?

1. 找主播:我得找到两个经过播音训练(或者嗓音不错)的主播,匹配成本、沟通成本都很高。
2. 写稿子:要做这期播客,我还得写稿子,可能得查阅大量的资料、整理语言、反复沟通、斟酌措辞,成本也非常高。
3. 录音:录音需要有录音棚,需要买话筒、买隔音棉、买话筒支架,主播在录音过程中,还需要买点饮料之类的润润口。录音过程中,有可能需要录好几次才能录到满意的效果,需要花很多时间。
4. 剪辑:初步录好的音频是没法直接用的,需要经过精细的剪辑,这就需要有专业的剪辑技巧和大量的时间,成本依然很高。

通过上面的4点分析,我们可以很清晰地感觉到,要做一期相对专业的播客,金钱成本、时间成本、匹配成本、人力成本都非常高。

但是NotebookLM通过多个大模型(Gemini 1.5 Pro和内部audio模型)的组合,由Gemini 1.5 Pro来写稿子,audio模型来生成播客,直接就把上面的4步砍到了2步,而且这2步都是全自动化的,边际成本极低。

那么,我作为一个普通的用户,就有能力以极低的成本创作属于自己的播客。

创作成本的降低,很大程度上会激发创作欲(从抖音、快手的全民化上可以得到很好的体现),从而带来丰富多样的内容。

大众可以通过极低的成本创造以往只有专业人士才有能力创作的内容形式,并且还可以让AI以专业人士的口吻去解读日常生活中的普通内容,让用户感觉“自己被重视”了,或者让AI以一本正经的语气去讲解一个很反常的东西,形成强烈的反差,满足用户的猎奇心理。

无论是NotebookLM还是阶跃星辰上周发布的「歌词爆改器」,核心都是将以往很贵很稀有的服务做到足够便宜、足够快,当试错成本变得足够低时,用户展现出了强大的想象力和创造力。

这或许是一个值得深挖的方向。
13
陈南
1月前
前两天刷到莫言2005年在香港公开大学的一段演讲视频,其中「小说就是应该从感觉出发」的观点引起了我不少触动。先贴一下原文大家感受一下:


刚才校长阁下也说了,莫言是一个很有想象力的作家,小说的语言非常生动。关于想象力,我觉得我的想象力确实还是不错的,为什么说不错呢?因为我的想象力是饿出来的。(全场笑)

人在饥饿的时候,特别容易产生幻觉,当然这些幻觉都和食物有关系。所以统观我的作品,里面描写人对食物的幻想的章节有很多很多。写吃、喝的地方很多,写人身体的感觉、肉体的、感观的地方很多。

也有人说,莫言是一个没有思想只有感觉的作家。在某种意义上,他们的批评我觉得是赞美。一部小说就是应该从感觉出发。一个作家在写作的时候,要把他所有的感觉都调动起来。描写一个事物,我要动用我的视觉、触觉、味觉、嗅觉、听觉,我要让小说充满了声音、气味、画面、温度。

当然我还是有思想的。我认为一个作家如果思想太过强大,也就是说他在写一部小说的时候,想得太过明白,这部小说的艺术价值会大打折扣。因为作家在理性力量太过强大的时候,感性力量势必受到影响。小说如果没有感觉的话,势必会干巴巴的。

好的小说应该像一条有人气的街一样,充满了各种声音和气味,有各种各样的温度,让人仿佛置身其中。如果不把身体全部的感官调动起来,小说势必写得枯燥无味。


这段演讲,至少说明了莫言的作品备受欢迎的重要原因之一:能够充分调动读者的感觉。

什么是感觉?情绪是一种感觉,引起想象也是一种感觉。人类是一种很容易受感觉支配的生物。

国庆假期刚结束,相信很多人都经历过规划一场旅行。比如说,当我们规划去内蒙古看大草原的时候,我们真的是在关注那里的草有多茂盛,草原有多宽广吗?不,我们实际上是在想象,想象什么呢?站在一望无际的草坡上,微风拂过面庞时,那种冲出琐碎生活束缚的自由感和松弛感。我记得我上高中的时候,大冰的小说特别火,他在小说里描述了很多关于西藏的浪漫生活,引起了少男少女们的无限遐想,有几个同学高中毕业时就是受它的影响去西藏来了一回“心灵净化之旅”。

在选车的时候,也是类似。对于准备买理想的用户,TA可能想象的是带着一家人出去露营踏青时的幸福感,这也是理想品牌一直极力营造的品牌形象;对于准备买硬派越野车的用户,TA可能想象的是带着爱人或者兄弟在沙漠、河滩中、山野中探索未知的新鲜感和刺激感;对于买性能车的用户,TA可能想象的是在平坦的道路上油门踩到底的加速感。

其实,大多数购物决策的本质就是想象,而人在想象时最容易被感觉操控。前两年看到过一句话:“淘宝购物最快乐的两个瞬间,一个是下单,另一个是收货。“ 在下单前,用户已经对自己拥有了这件商品之后的生活进行了充分的想象,但是,这还没有结束,在下单后,等待到货的这段时间里,用户的想象依然在进一步发酵,体现到情绪上就是期待感越来越强,到即将收货时达到顶峰,然后,这种想象才会转化为真实的使用体验。

直播带货这两年能够受到上亿用户的喜爱,跟“直播”能够充分带动用户的情绪是分不开的。在观看直播时,主播勾起了用户对美好生活的想象,用户情绪一上头就下单了。这种“冲动消费”其实也能从直播的高退货率里得到一部分印证,一些用户在收到货之后,才发现自己并不是真的需要这个产品。但无论如何,他们却实实在在地贡献了GMV,并且为快递行业贡献了真实的收入。

很多基于内容的生意,归根结底做的是「感觉」和「想象力」的生意。而AI,最擅长的就是模仿人类。

或许,下一个内容时代,AI会比人更懂如何操控感觉。
21
陈南
2月前
最近在思考一个问题:2025年出生的孩子,会如何看待人机交互?

前两天看到一条微博,一些00后已经不知道运行内存(RAM)是什么了,对于他们来说,内存就是储存空间。这让我很感慨,科技的发展是如此之快,2011年,第一代小米发布的时候,内存只有1GB,4GB存储空间,售价1999元;2024年,红米K70拥有16GB内存,1024GB存储空间,只需要3199元。硬件配置有了极大的提升,价格却没怎么变化,手机市场普遍面临性能过剩,所以大家买手机也不怎么关注内存了。曾经很重要的东西,随着科技的发展,优先级越来越低,它依然很重要,但不再是用户考虑的第一因素。

丰富的经历塑造了我们的使用习惯,但有时候这些习惯也会成为接受新事物的包袱。触屏智能机现在已经成了空气一样的存在,每个人都觉得它的存在很自然、很符合直觉,但是在触屏手机刚出现的时候,也受到了一些人的批评,他们认为触屏缺少实体按键的触觉反馈,实体按键的操控性被认为是不可替代的,黑莓手机对实体按键的坚持就体现了这一点。使用实体按键手机多年形成的惯性,让一些用户在触屏浪潮到来的时候本能地抗拒,导致比其他人晚接触到最新的科技。最后,当周围大多数人都开始使用触屏手机的时候,他们终于被群体裹挟,也用上了触屏手机。

我记得一两年前看过一个视频,一个两三岁的小孩在站在电视前面,一直点动画片的封面,希望能够播放这个动画片。这个视频看起来好笑,但背后蕴含的社会变化值得深思。对于从来没有使用过实体按键手机的小孩来说,任何一个能发光的显示屏设备都应该是可以触控的,甚至,他们可能很难理解需要用按键才能操控手机这件事。对于他们来说,根本不需要适应触屏智能手机,在他们的眼里,手机就应该是这样的,我如果把实体按键手机放在他们眼前,他们会很费解,为什么要这么设计手机?

我们在设计AI应用的时候,也总是会思考一个问题:这么设计,之前的用户会不会觉得不习惯?最近我慢慢意识到一个问题,不管怎么设计,总有用户不习惯。黑莓能够坚挺这么多年,就是因为始终还是有人不习惯全触屏智能手机。比较普遍的一种情况是,新的科技总是先在年轻人群体里开始传播,如果产品受众足够广,会从年轻人逐渐扩散到全年龄段。这背后的原因或许在于,随着阅历的增长,人们更容易固守已有认知,难以接受新事物,愿意不断迭代认知的人始终是少数。这些被惯性拉住的用户,只有当被群体和时代裹挟,接触到新事物时,才会真切意识到新科技带来的价值。在设计产品时,与其一直想我这么设计会有哪些人不习惯,不如反过来想想,我这么设计哪些人会很喜欢?

目前看,在AI产品上情况也类似,年轻用户群体再一次站在了浪潮之巅。即使现在与AI的交互需要打很多字,心智成本很高,大多数人依然非常主动地拥抱AI技术,探索AI的能力边界。但是,00后用户依然是有思想包袱的。虽然比较少接触门户网站,但是搜索引擎的概念已经深入人心,APP之间的信息孤岛大家也习以为常,当LLM刚出来的时候,大家还是很自然地用搜索引擎的思路往上套,一开始很多人都认为LLM是一个高级版的搜索引擎,其实它已经远远超越了搜索引擎,它不仅能提供信息,还能够直接跳到“帮你办事”这一步。接下来几年,Agent将会成为一个普遍的概念,人们会越来越习惯「提出需求、然后就只管等着验收成果」。至于中间是怎么完成的,很少有人会关心。

那么,2025年出生的孩子会如何看待人机交互呢?

他们学习电子产品的第一课,将是「如何与AI交流」。
43
陈南
2月前
周末听了Reid Hoffman前段时间在斯坦福讲的一节AI商业课,收获了一个对我认知冲击很大的观点:基于LLM的产品,或许可以成为认知层面的GPS。

怎么理解这个观点呢?让我们先从手机地图说起。在没有电子地图的时代,大家出门都是靠纸质地图,但是纸质地图有两个比较突出的问题,一是比例尺固定,无法放大和缩小,二是无法快速定位到自己当前的位置。这就带来了问题,如果我要出个远门,要么我得做很多很多功课,要么我得找个懂路线的高手带着我,不管是哪种方式,认知或金钱成本都很高。

但是有了手机地图以后,这个问题就慢慢被解决了。比如我要从北京开车去新疆,放在之前光是路线这块就是个很头疼的事情,而现在我只需要打开手机地图设置起点终点,一眼就可以看到接近3000km的路线,路上要经过哪一个高速,哪里有加油站,哪里堵车,都看得清清楚楚,这个时候我心里已经有数了。当我启程的时候,它会在每一个路口引导我往哪个方向走,提醒我接下来的服务区,帮我绕过堵车的路段…. 在长途自驾时,正是因为有了手机地图,我的大量精力可以从繁琐的路线规划上抽离出来,专注于欣赏路上的风景。

那么,让我们从更抽象的角度来思考手机地图,它做了什么事情?

首先,当用户需要做一件本来很复杂的事情(规划驾驶路线)时,它提供了一套宏观的总体解决方案,让用户感知到它的靠谱,愿意使用它。
其次,当用户实际使用它(开启导航)时,每一步都在合适的时间给用户提供了详细的指引,让用户不再需要为繁琐的细节而担心,只需要相信它,它便会带领用户一步步到达终点。

从这种角度讲,手机地图实际上是一个非常伟大的发明,它提供了一种强大的安全感。正是因为有了它,没出过远门的人也可以放心地开始踏上旅途;在陌生的城市里,因为有它,旅行者可以放心地探索城市的每个角落,不用担心找不到回去的路。在它的赋能下,每个人能去的地方更远了。

对于LLM产品来说,其实也是类似的。在OpenAI o1模型的介绍中,我们可以看到它在一些任务中的表现已经可以和PhD媲美,在丰富的世界认知和强大推理能力的加持下,在「地图导航」以外的领域,LLM也可以为用户提供强大的安全感。

之前,面临高山,用户可能望而却步,但是有了LLM之后,TA只需要说出来TA的目标是什么,剩下的,就交给LLM。它不仅会告诉你它完全可以帮你处理这件事,还会在每一步给你详细的指引,而对于用户来说,只需要顺着指引向前走,享受这个过程,最后,与目标不期而遇。这就是认知层面的GPS。

话说,人生不也是一段长途旅行吗?有个GPS当向导,或许会走得更远。
3156
陈南
2月前
上周的结尾,我提了一个开放问题——“按照AI现在这个发展速度,几年后,什么样的经验是需要我们教给AI的?” 这周,随着OpenAI o1的发布,我有了新的思考:随着模型越来越强大,我们需要教给AI的东西将越来越抽象。

在我看来,大模型的能力主要体现在基础知识和推理能力两个方面。虽然业内对大模型在通用领域的应用越来越有信心,但在垂直领域仍存在挑战,因此本文将重点讨论大模型在垂直领域的应用。

在执行垂直领域任务的时候,有领域知识很重要,在复杂度比较高的任务中,推理能力也非常重要。按照目前的趋势,在推理能力上,前沿实验室的模型长期会具有绝对优势,而垂直领域知识的植入,目前有两种方式,一种是把领域知识全部放在上下文里,让模型进行in-context-learning;另一种就是自己训练、调整模型。

我比较看好第一种,始终让自己的产品能接触到最先进的推理能力更重要,我只需要把领域知识放在context中,不依赖任何一个模型,等新模型出来,我马上就可以切过去,并且in-context-learning的成本也在指数型降低,使用这种方式,成本会越来越低。

而如果使用第二种方式自己训练模型的话,存在几个问题:
首先,微调模型需要针对模型去准备相应的数据集,可能今天准备的数据对这个模型有效果,但换个模型就不work了,需要重新根据新的模型准备数据,切换成本很高,如果使用第一种方式,则只需要切换模型,对prompt不需要过多的修改,切换成本很低。

其次,微调具有一定的不可逆性,而且是个黑盒(我们不知道自己输入的数据集产生了多大效果),有可能一开始微调模型的时候,是根据产品策略A来准备的数据集,但是过了一段时间,切换了产品策略,那就需要让模型按照产品策略B来进行回复,这个时候面临一个选择:是重新开始训呢?还是基于之前的模型继续训呢?每种选择都意味着巨大的成本,而如果使用in-context-learning,更改产品策略的成本很低,只需要调整一下prompt即可。

此外,很多模型不是一开始就允许微调的。比如说,GPT-4o于2024年5月13日发布,8月20日,官方才支持对这个模型进行fine-tuning。对于AI赛道的产品来说,3个月,如隔三秋。正如之前所讨论过的,对AI Native应用来说,模型能力很大程度上决定了产品效果。如果新一代模型有了很强的能力提升,竞争对手使用的是in-context-learning,而我们的产品高度依赖fine-tuning,那就意味着竞争对手在用户体验上会领先我们3个月,等到时候支持fine-tuning了,新一代模型可能又出来了,这个时候就很尴尬,我是应该继续fine-tune旧模型呢?还是等新的模型支持fine-tuning呢?如果按照这种方式,用户体验可能永远也追不上竞争对手。所以,长期来看,fine-tuning这种方式在商业竞争上是不可行的,会让自己处于一个非常被动的地位。

顺着逻辑推导到这里,相信我们应该都已经意识到in-context-learning是未来的趋势,要不然Google、Anthropic、OpenAI也不会在long context上投入这么多的精力。那么问题就来了,当我们想要在context中向模型传授领域知识时,应该怎么做呢? 在之前,one-shot、few-shot是非常典型的解决办法,在context中,除了具体的执行指令外,还提供足够多的sample,让模型按照这些sample来推理回复,在常见的一些任务下表现效果都不错,一些benchmark也会采用few-shot来提高模型的表现。但是OpenAI o1的发布给我带来了新的思路,o1通过让模型在正式回答问题之前学会了使用Chain-of-thought进行“慢思考”,实现了模型能力的巨大跃升,我仔细观察过一些“慢思考”的内容,模型已经学会了像人一样,在回答问题之前,反复推敲自己的想法、排除可能错误的选项、顺着逻辑推导新的内容,换个角度讲,它会仔细思考我们给它的prompt,在“慢思考”中榨取尽可能多的信息量。这意味着什么呢?以后,我们可能不需要向模型说一些很细节的内容,而是说一些比较宏观、抽象的指示,它会结合自己的内在知识库,尽可能多地从抽象信息中推导出合理的细节。

我举一个例子,比如说我做了一个AI教师,现在AI需要给学生上一节数学课,内容是两个数的乘法,放在之前,我需要给模型提供一个非常详细的教案,让它完全按照我的意思去讲。但是以后,我可能只需要简单的一句话,“用耐心的语气,向一名二年级学生讲授两个数的乘法,这个学生具有XXX特点,请根据他的个人性格调整教学策略。“ 在给学生进行教学的过程中,AI会根据学生自身情况和当前教学情况,实时“慢思考”出新的策略。

为什么我认为在垂直领域给LLM提供抽象信息的方式会work呢?其实是源于芒格的多元思维理论,个体每多接触一个领域的信息,对TA来说带来的价值可能不是加法,而是乘法,我认为对于大模型也是一样的。在模型训练过程中,跨领域的知识会进行融合,不是孤立存在的,也就是说,这个模型现在是一个“通才”,当“通才”需要让自己擅长某些垂直领域时,可能不需要从0开始一点点学,只需要提供一些重要的顶层抽象信息,它就可以get到这个领域的关键点,然后根据这些信息实时推导出细节。

简单来讲,在Training Scaling Law时代,大家关注的是如何将尽可能多的信息无损压缩进模型里。在Inference Scaling Law时代,或许我们也需要开始关注,如何将人脑中的经验抽象成凝练的理论,让模型进行解压缩,变为可执行的细节,并低成本地规模化,创造更大的经济价值。
06
陈南
2月前
周末听了Andrej Karpathy近期做客《No Priors》的一期播客,让我意识到一件事:大模型时代,很多职业将从前台转向后台,个人经验可以演变成一个产品由AI代你对客。

让我们先从Andrej聊起,他本来是OpenAI的创始成员之一,后来加入Tesla负责研究自动驾驶,2023年回到OpenAI研究LLM,2024年离职,创办了专注于AI教育的公司Eureka Labs。他在AI领域有着非常丰富的经验,也经常在Youtube上分享一些AI相关的知识,有种“AI界菩萨”的感觉。他在这期节目里分享了他做AI教育的一些思路,核心观点可以总结为:

「在过去,一个老师要给学生上课,那TA就得准备一份教案,然后亲自去当面给学生传授知识。但是在LLM时代,我们可以尝试的事情是,让这个老师写一份教案,然后让AI根据这份教案,去给无限多的学生一对一讲课。简单来说,在过去,老师在前端直接面向学生,在未来,老师更多地是在后端打磨经验和教案,由AI去前端面向学生。」

在AI教育这个例子里,其实已经充分利用到了大模型的3个基本特性:
1. 类人级智能:给学生教课的前提,是能够充分理解教案中的内容,如果大模型理解不了教案,那自然也无法根据教案中的指引和思路去给学生传授知识。
2. 超人级的信息吸收速度:与学生的每次对话,都需要结合教案中的全部内容进行回答,并且需要准实时地进行回复,对时延的要求很高。如果大模型每次回复学生都需要1小时的时间充分理解教案,那这个场景自然也不成立。
3. 低廉的边际复制成本:一个老师同一时间只能面向1个学生或者1个班的学生进行授课。如果是1对1,价格很昂贵,动辄1小时三四百元。如果是1对多,则效果没那么好,没有办法针对每一个学生的特点专门去调整教学方式。而有了大模型,则可以以一节课几块钱、甚至几毛钱的成本完成授课,并且完全是一对一的教学,会根据学生的学习情况实时调整教学策略。与此同时,对于教师来说,一旦教案编写好了,那就可以开始无限低成本复制。

当我们推导到“写一次教案,可以无限低成本复制”这一步时,似曾相识的感觉出现了,ToC互联网产品不也是这样吗?搭建好一个平台后,便可以用相当低的边际成本接待新的用户。那么,这两者区别在哪里?让我们还是以AI教育为例。

在ToC互联网产品中,对客的主体是产品,但在AI教育中,用户感知到的是角色。比如说,我去美团点外卖,虽然它的背后也有着无数的人在支撑,但是我更多地感受到的是我在跟这个公司的产品打交道。但是,在AI教育平台上课时,我感受到的会是——对面是一个老师。这是由大模型产品的基本属性决定的,大模型能够像人一样交流,这使得用户不自觉地将其拟人化。尤其是随着模型一步一步升级,它会越来越擅长模仿人,这是我们无法忽视的一个趋势。所以,当对客主体变了之后,产品的设计思路也需要跟着一起调整,这是一个全新的话题,值得深入去思考。

让我们回到主题,从AI教育的例子里我们可以很明显的感觉到,老师在这种产品形态下,已经从前台转向了后台,而对于这个老师来说,自己的个人经验凝结成了教案,被AI教育平台打包成一个产品,由AI低成本地面向无数学生兑现价值。

其实很多行业也是类似的,比如说程序员,在今天是由自己直接向团队提供服务,那如果有一个AI可以帮TA处理这些沟通、协调的细节,自己专注于如何让AI更懂部门的业务、架构设计和系统的可维护性,是不是也是一种形式的从前台转向后台呢?根据自己的经验所打造的AI,便是自己的产品,可以直接面向外部提供服务。

这个话题非常有意思,针对每个行业,都值得顺着这个思路去思考未来的形态。那么,就有了一个值得深思的问题:

按照AI现在这个发展速度,几年后,什么样的经验是需要我们教给AI的?
14
陈南
3月前
半个月前分享了一段思考,主题是「LLM使用成本还比较贵的时候,可能是最适合入场的时候」。近两周Cursor的爆火,让我有了新的思考:LLM能力还比较弱的时候,可能也是最适合入场的时候。

Cursor最早进入我的视野是在2023年4月份左右,当时Cursor刚推出不久,底层用的是GPT-4模型,现在饱受好评的Chat功能,当时其实已经具备了,但是我当时体验完之后,效果并不是很惊艳。用它来写点玩具代码片段是可以的,但当我尝试用它去给稍微大点的项目做新功能的开发时,就发现模型的能力严重限制了它。主要是两个问题,一是上下文不够长,当时它使用的是8K上下文的GPT-4,这就决定了它能够理解的背景信息非常有限,很难在这么短的上下文里去塞给它足够的代码和文档;二是GPT-4本身的幻觉比较严重,当你让它帮你写代码时,经常出现Bug,或者用了一些根本不存在的库或方法,导致要花很多精力去检查、修改它写的代码,反而可能拖慢了效率。

然而,仅仅是升级了一个模型,一切都变了。今年7月21日,Anthropic发布了Claude 3.5 Sonnet,其编码能力大幅提升,并拥有200K长度的上下文。当Cursor把底层依赖的模型换到了3.5 Sonnet之后,体验有了质的飞跃。我们对比一下之前影响其体验的两大问题:首先,上下文长度从8K提升到200K,实现了数量级的飞跃,可以在如此大的上下文里塞下数十个代码文件及文档,让模型充分理解项目背景、代码结构和编码风格;其次,Claude 3.5 Sonnet在编码时的幻觉惊人地少,不知Anthropic使用了什么技巧。大多数情况下,它写出的代码无需任何修改即可运行,我猜这也是Anthropic在其官方Claude应用里自信地开放Artifacts功能的原因——它在Artifacts中写出的网页,在大多数情况下可以一次性跑起来,没有任何语法错误。当这两点问题都得到极大改善后,神奇的现象发生了:以前我们使用AI编码时,几乎是抱着非常提防的低预期心态,但现在,我们可以很自信地让Claude发挥作用,我只需要提供必要的引导即可。

刚刚用了比较多的篇幅来讲Cursor,主要是想说明一个以后我们可能会经常看到的现象:如果你的应用使用今天的模型勉强能跑,那么下一代模型可能会让它的体验有质的飞跃。(这个观点来自Y Combinator的创始人Paul Graham,也就是《黑客与画家》的作者) 就像Cursor一样,去年用GPT-4的时候,只是勉强感觉这个模式可能是work的,效果很一般,但今年有了新一代模型的加持后,体验上犹如跨越了一道鸿沟,从barely works变成了works really well。

过去的一两年里,我们总听到大家在谈AI Native应用,那AI Native应用的一个基本特点是什么呢?模型越弱,应用体验就越差;反之,模型越强,应用体验就越好。如果一个应用的体验与模型的水平关系不太大,那可能说明这个应用还不算是真正的AI Native应用,而Cursor就是一个非常典型的AI Native应用。那么我们来思考一个很有意思的问题:如果我是Cursor的创始人,当我看到今天Claude 3.5 Sonnet的表现之后,才去投入精力做Cursor,还来得及吗?我的答案是No,已经太晚了。

这么说可能有点抽象,我们来打个比方:假如我是一家公司的创始人,我在招人的时候发现一个年轻人很有潜力,但其他公司并没有识别出他的潜力,目前他也还没做出什么成绩,我当时想,“目前我们公司需要的是能干活的人,他经验太少,我等他成长起来再联系”。三年之后,他已经在行业内赫赫有名,我再去联系他时,发现很多家公司都在开高薪挖他,我已经没有机会了。

在做AI Native应用时,几乎面临一样的情况。当我们发现模型在某方面的潜力有一些苗头时,就应该准备入场了。一开始用当前的模型验证时,可能会发现体验没那么好,这很正常。当我们的应用研发得差不多的时候,可能新的模型刚好出来,我们有可能会惊喜地发现,应用体验有了质的提升。那如果提升不太大怎么办呢,那就继续再等一等。当然,要超前,但也不能太超前,否则可能还没等到新模型出来就撑不下去了。

总而言之,见微知著,未雨绸缪,剩下的,就交给时间。
1330
陈南
3月前
LLM使用成本还比较贵的时候,可能是最适合入场的时候。

最近用Claude做一些需要较多轮对话才能完成的任务时,经常发生的一种情况是,使用到后面,上下文已经很长了,每次让它回答问题会比较耗费资源、比较贵,就开始想这样是不是有点太浪费了。然后,就会想办法总结一下这段对话的内容,然后在新的一个对话里继续跟它聊。这样做确实是便宜了,但因为经过压缩后,信息已经有损失,很明显感觉没之前那个对话有默契了。

这个事情之后,我就开始想,有没有什么东西是一开始大家觉得很贵,都不怎么用,但是随着科技的发展成本有了指数型降低,然后取得了广泛使用的?

仔细想下来,发现有不少,我举两个跟移动互联网息息相关的例子:

1. 手机流量曾经是个很贵的东西,在5元30M的时代,用流量下载一首歌曲都是一种奢侈,随着运营商网络从2G到3G再到现在的5G,1GB流量的价格已经降到了1元左右。从166元/GB到1元/GB,取得了指数型的成本降低。大家可以想一想,流量作为手机互联网的重要基建,如果没有这么便宜的流量,还存不存在抖音?
2. 2007年第一代iPhone推出的时候,最大只有8GB存储空间,售价599美元;2023年, iPhone 15 Pro 1TB存储空间版本,售价1499美元;16年间,存储空间有了128倍的提升,价格却只有之前的2.5倍,这个价格对比放在安卓阵营会更加夸张。正是因为存储成本不断降低,使得越来越多的人愿意用手机记录精彩瞬间,愿意用手机来工作和使用各种各样的大型APP方便自己的生活,这些放在今天大家司空见惯的事情,在那个流量成本、存储成本高昂的年代,有几个人敢想?

时至今日,大模型行业的从业者基本上都认同长上下文、多模态输入输出是LLM未来必备的特性,并且市面上也已经有几个很不错的百万级上下文的多模态模型。但是在今天成本有些高昂的情况下,大家却对将这些能力投入实际使用显得有些犹豫,都在等成本进一步降下来之后再投入使用。我就开始思考一个问题,如果大家在设计产品的时候总是因为暂时的成本问题而选择不引入一些模型能力,设计产品的思路会不会受到很大的影响?

我的结论是肯定的。如果我们把LLM比做一个人,那长下文就相当于这个人有着非常好的记性,可以记住很久之前的东西。多模态输入能力就更厉害了,之前只能输入文本时,它相当于是一个只有嘴,没有耳朵和眼睛的人,现在有了多模态能力之后,它可以开始看到这个世界的丰富多彩,可以听懂这个世界的鸟语花香。如果现在把这两个能力差距很大的人塞给你,让它们给你打工,必然发生的事情是,你从不同的人身上看到的是完全不同的潜力,那在让它们做事时,也会分配截然不同的任务。

用一句简单的话来讲,只有当我们把大模型的各种现有能力和未来的能力都考虑进来去规划产品的时候,我们的想象力才不会被束缚。

从这个角度讲,如果我们明确知道,虽然现在应用模型成本高,但是未来随着底层技术的迭代,这些成本很快将会以指数型的速度降低(过去一年大模型的成本降低就已经提供了一个很好的参考),那么在一开始设计产品的时候,就不要太考虑成本的问题,这些都是很快会被解决的问题。

一开始很烧钱是没错,但正因如此,很多玩家已经被成本问题劝退了,等他们反应过来的时候,很可能你已经领先很久了。

这种情况正应了巴菲特的名言:别人恐惧,我贪婪。
31
陈南
3月前
搜索动作在AI时代将会被赋予新的人机交互含义

一年半之前,有人认为ChatGPT的出现将预示着Google的终结,我当时认为这是危言耸听,Google建立起的庞大搜索帝国不会轻易倒塌,当Google愿意克服创新者的窘境,使用大模型去重构自身时,赢家还是它。但是,前两天回头一想,发现我这几个月很少用Google了。不是因为Google不好用,而是Claude 3.5 Sonnet直接交付的产出效果太好。

举个例子,比如说现在我的任务是搭建一个直播系统的实时评论功能。

之前,我的工作流程可能是这样的:
1. 先搜索Google,“实时评论应该怎么做”,然后看一大堆文章,然后知道我要用Websocket技术,还要建立各种数据库表和后端接口。
2. 然后我再去搜“如何使用Websocket”、“如何建立合适的数据库表结构”、“如何用XX技术搭建后端接口”
3. 然后开始用学到的信息开始设计系统、一行一行进行开发

现在,我的工作流程是这样的:
打开Claude,直接提出我的需求,”我现在要搭建一个直播系统的实时评论功能,你帮我看看怎么搞“,然后它开始直接跟我讲技术方案,我有不懂的就问它,方案确定下来之后,它直接给我输出代码,我只负责复制粘贴。

有没有从这个例子里感受到这种人机交互模式的转变?如果你把Claude的消息输入框看作是搜索框,那用户输入的内容,从「我要查什么」变成了「我要什么结果」。搜索动作本来是完成庞大任务的一个中间环节,为了给这个任务交付结果,用户借助搜索来获取信息。但是,在这种新的模式下,搜索即是结果。那么顺着这个思路,我们来用两个例子说明一下,在AI时代,当用户有需求的时候,可以是什么样:
1. 当小王需要带全家去大理玩,他唤醒AI助手,语音输入“我全家四口人10月3日要去大理玩3天,帮我看看大理古城附近适合我们的民宿”,等了一秒,屏幕上直接展示出符合他要求的房间,点击即可预订。
2. 当小陈家里下午要来客人,她准备做几道菜来招待下,但是还没买菜,她唤醒AI助手,语音输入“我下午要做鱼香肉丝和红烧鲤鱼,没菜了,你帮我看看要买啥。”等了一秒,AI助手向她展示了自己从买菜平台找到的适合的菜品,点击即可一键下单送货到家。

看完这两个例子,你大概已经对这种模式转换有了一个比较清晰的概念。那我们回到正题,在这两个例子里,搜索这个动作,它履行的还是搜索的职责吗?当然不是,它已经从「你帮我找点信息」变成了「你帮我做点事」。简单的几个字,就已经有了质的不同,这是人机交互模式的一次重要转变,它可以让用户将更多的繁杂脑力活动外包出去给AI,留下更多的精力来思考更重要的事情。

那么,就有了一个很有意思的问题,到那时候,搜索这个动作,还能叫搜索吗?
02