大模型的半年总结。2024年即将过半,是一个比较好的半年总结的时间点。还记得今年年初的时候,拾象的
@广密 在和
@张小珺 的访谈中做出了对大语言模型在 2024 年发展的十大预测,更重要的是给了一个比较好的行业观察框架。如今 2024 年已经过半,是时候把这个框架拿出来做一次半年 Review。当然,Review 的目的并不是看预测得多准,而是看看行业的共识与非共识发生了怎样的变化,以及背后的原因。(另外,个人认为这是个预测的重要性并不相同,最重要的是 Prediction1,6,7。)
Prediction 1:2024 年上半年是 LLM 军备竞赛关键赛点,格局形成后很难再改变。
Yes。目前看起来答案已经日趋明朗,在美国,闭源领域的OpenAI、Anthropic 和 [X.ai](
x.ai),开源领域的 LLaMA 和 Mistral(应该算欧洲),这几家之外没有新的玩家入场,后续也很难了。国内的话,除了阿里、百度、字节、腾讯几个大厂之外,月之暗面、智谱、Minimax、百川、零一万物这几家独角兽都还有子弹,也没有新玩家入场。
一个有意思的问题是,闭源和开源的差距究竟是变大了还是缩小了?李广密坚持认为,差距表面上看起来缩小了,但事实上在变大。本质上差距的背后就是赤裸裸的算力,3.5 万张卡训练出来的几个 trillion 的模型,一定会显著好于 1 万张卡训练出来的 1 个 trillion 的 GPT4,只不过 3.5 万卡的集群构建需要的时间比想象中长,所以新模型的亮相时间被延后了。同理,明年会有 10 万张卡的集群,效果依旧会继续提升。
核心问题是:Scaling law 是否继续有效?GPT5 出来之前,我们都看不到实证性的证据。只能说,从大厂们花钱买卡的势头来看,至少他们都相信。
------------------
Prediction 2:数据短缺问题成为模型 bottleneck,合成数据是关键解法。
Not sure. 目前看起来,似乎没有哪家公开宣称数据不够了,但背后究竟是否用了合成数据,用了多少,就不太清楚了。个人倾向于,至少在 GPT5 出来之前,数据的瓶颈并不明显。
------------------
Prediction 3:2024 年会迎来端侧 LLM hype,会有开源模型团队被硬件厂商收购。
Not yet. 苹果的端侧模型比较亮眼,但也没有到 hype 的程度。个人认为端侧模型被高估了,随着大模型成本和 latency 的下降,更好的解决方案就是直接调基础模型。
硬件是个有趣的话题。
------------------
Prediction 4:多模态成为 LLM 在 2024 年的主流叙事。
Yes and No. 这个预测本身比较模糊,什么叫“主流叙事”很难定义清楚。目前来看,图像和视频理解上并没有看到实质性的巨大进步,反倒是 GPT4o 的发布让端到端实时音频的效果有了突破性的进展。3D 生成方面也有一些进展,但距离实用依旧很远。
视觉多模态无疑是主流的研究方向,但正如何恺明前一段在 MIT 所说的,在基础的科研层面上,尚未找到有效的 representation 和 embedding 的有效方法,能够让 self-supervise 运转起来。而 3D 方面,高质量数据的缺乏依旧是最大的困扰。
------------------
Prediction 5:视频生成会在 2024 年迎来“ChatGPT 时刻”。
Not yet。Sora 最初的惊艳之后始终保持低调,其他一些视觉生成模型也陆续发布,证明视频生成的门槛并不高。更重要的是,视频生成的可控性,在现阶段还无法达到生产环节所需要的要求,商业价值还较为有限,更像是一个玩具。个人感觉距离 ChatGPT 时刻还有相当的距离。
------------------
Prediction 6:新摩尔定律会解锁更多新应用的可能性,LLM-Native App 会在未来 6-12 个月迎来大规模爆发。
Not yet。这其实是最为重要的预测之一,但目前看来并未发生。目前 C 端的 LLM-Native App 依旧是 ChatGPT(月访问次数 2.6b,日活过亿?) 和 [Character.ai](
character.ai) (DAU 600 万,估值小几个 billion),并且用户量相比半年前并没有显著增长。Midjourney,Suno 之类的 GenAI 应用也是一样。另外,GPTs 也是半死不活。
相比之下,C 端状况似乎比较好的是 Perplexity(2000 万 MAU,ARR 2000 万,估值 3b) - 我个人基本上已经用 Perplexity 取代了 Google。另外,教育类的几个应用(比如 answer.ai, 字节的 Gauth 和 作业帮的 [Question.AI](
question.ai) 等)在北美都有了几万或十几万的 DAU 以及几十万美元的月营收,但这似乎更应当归类为“教育产品出海”而不是 GenAI。
个人认为,C 端的试错成本相对较低而迭代较快,因此如果有靠谱的想法,在 GPT4 已经发布5 个季度之后的今天,该尝试的都已经被试过了。至少目前来看,有一些“前人没想到”的爆款应用的概率已经越来越低了。
------------------
Prediction 7:2024 年,亿级 ARR 产品将批量出现,更多公司 5% 以上的收入贡献将来自 AI。
Not yet。和 Prediction6 一样,这是最为重要的预测之一,目前看来,真正达到亿级 ARR 的产品只有 GitHub Copilot(猜测ARR在 2亿美元左右),或许再加上微软的 M365 Copilot(目标是去年 Q3 到今年 Q2 结束时累计收入达到 1billion,实际肯定没完成)。二级市场的 SaaS 企业们,例如 Salesforce,ServiceNow,Workday 等等,AI 产品的路线图已经画了几个季度,但都迟迟不敢公布 AI 的实际营收贡献(猜测都不到 1%),继而引发了 SaaS 被 AI 颠覆的新叙事以及 SaaS 股票的估值新低。大家最看好的客服、营销等场景,
一级市场的融资也在下降。除了基础模型公司(例如 x.ai)之外,B 端应用层的企业只有Devin, Heygen等个别的企业拿到了大额的新融资。真正规模化的、ARR 超过 10m 的企业屈指可数。大多数企业都还在讲故事以及寻找 PMF 的阶段。
有趣的是,OpenAI 上周公布的 ARR 达到了 34 亿美元,猜测其中 80%都是B 端 API 的收入,再加上微软的分成和微软 Azure OpenAI API 的收入,估计有 50 亿美元以上的ARR,占到 SaaS 上市企业年收入的 1%。这些钱到底是谁花了?我个人的理解,其实这一波 GenAI 大企业还不太敢用,因为幻觉、合规、数据隐私、推理能力弱等问题,落地场景有限且周期过长,而 C 端用户大都是尝鲜,没有找到太多的付费点(除了学习类的刚需)。真正给 OpenAI API 付费的或许并不是少数“亿级 ARR”的大单品,而是广泛的中小企业和 Prosumer 群体,他们有生产力提效的需求,有一定的技术能力(至少会调用 API和写 prompt),且对幻觉的容忍度较高(大不了多试几次,有错自己改改就行了),在翻译、写作、素材生成、简单问答、文档总结、代码建议等场景下,直接调用 OpenAI 的 API 或者 间接使用套壳工具(比如沉浸式翻译、Monica、ChatPDF)就够了。因此,这一波AIaaS的形态是广撒网的长尾分布,缺乏头部效应。
在最近的这次访谈中,李广密认为,随着成本的下降会开启企业级应用的机会,例如可以大规模地尝试 RAG 检索。个人对此不是很乐观,因为目前 PMF 没找到,核心问题并不是成本高,而是推理能力不够,导致只能解决一些痒点而不是痛点。成本问题是找到 PMF 之后大范围推广阶段的关键问题。
------------------
Prediction 8:2024 是布局 Data Center 的重要时机,算力、Cooling 以及互联等环节均存在机遇。
不懂,只知道相关的能源类股票涨得不错。
------------------
Prediction 9:围绕 LLM 将发生一起具有影响力的网络安全事故。
Not yet。个人理解,这是因为LLM 的渗透率低于预期,所以还没来得及出事。
------------------
Prediction 10:具身智能还需 1-2 年才能真正迎来突破。
Yes。虽然不少具身智能公司都拿到了大额融资,但更多还是在产品 demo 阶段,在数据获取、技术路线等方面尚未形成行业共识,更不用说实际效果。因此,具身智能看起来还有较长的路要走。
当然,如果将自动驾驶也理解为广义的具身智能,那么 FSD 的实际进展是超预期的。它可能会成为第一个迎来真正突破的领域。
------------------
总的来说,我认为拾象的这10个预测是不错的思考框架,问了一些很 valid 的问题。和以往历次的技术创新一样,在早期很容易导致泡沫和高估,AI 也不例外。按照 Gartner 曲线来看,目前可能处于第一个 Hype 的顶点。
个人对 AI 的长期发展还是十分乐观的,但同时也承认现有 GPT4 的天花板效应也非常明显。Again,类比互联网时代,现在很像是 2008、09 年,当时 iPhone 已经被发明一年了,甚至 AppStore 也上线了,但网络环境只是 2G,依旧只有汤姆猫、切水果这些应用可以用。因此,最关键的 Prediction 是 Scaling Law 能否继续,何时能够突破 GPT4 的天花板,让推理能力有 meaningful 的进化。