即刻App年轻人的同好社区
下载
App内打开
Diiiii
252关注3k被关注12夸夸
Diiiii
1月前
目前制约大模型的主要瓶颈,还是逻辑推理能力的不足,从这个高考成绩中就能明显地体现出来。用简单粗暴地类比来说,现阶段的大模型确实更像是文科生,而不是理科生。

和雷老板聊这个事情,他认为现有的模型训练方法不适合理科/逻辑推理的训练,主要原因在于文科和理科的答案在空间分布上具有不同的形态。文科的答案分布是稠密而连续的,一句话可以有很多表述方法,稍微更改几个字并不影响其含义,因此 next token 并不存在唯一的解。而理科不一样,一道题的答案有明确的对错,不存在模棱两可的中间地带,因此理科训练的答案分布是离散而稀疏的,是空间中的很多“点解”。这就要求在训练时要给出非常极端的反馈,对于错误答案给出鲜明的惩罚,对于正确答案给出鲜明的奖励,没有灰色区域,不能和稀泥。

除了训练方法之外,另一个问题在于数据的准备。我们在学习理科的时候是有严格顺序的,比如先学加减乘除,再学平方开方,再学解方程。前一步搞定之前,是很难理解后面的。直接让小学生去看微积分,他们很难理解。另外,理科学习对于过程数据的要求会更多。这些对于数据的清洗、整理、投喂的过程都提出了不一样的要求。

再多联想一下,其实人脑在处理文理科问题的时候,调用的原本就是不同的脑区。目前的大语言模型更像是人脑的颞叶,专门用来处理与语言理解、听觉、记忆形成以及情感处理有关的问题。而人脑主要负责处理数学运算(以及触觉、方位感、手眼协调和空间定位)的脑区是顶叶 - 这是一个不同的模型。另外,人脑的枕叶主要负责视觉信息的处理,Tesla 的端到端自动驾驶模型,或许更类似于一个枕叶(+顶叶)的模型。

这样看来,在理科推理能力的训练上,或许要有一些不同的思路。目前 OAI 的思路看似有两个,一是继续大力出奇迹,把参数量、算力堆到x10,看看暴力美学能否搞定。类比人脑,这是在试图把颞叶做暴力进化,看看能否带来功能上的升级。二是为数学、编程这种理科能力单独训练模型,类比人脑,这是要训练一个独立的顶叶模型出来。OAI CTO 前一阵子说,最多一年半,大模型就能从高中生变成博士生,不知道指的是哪条路线。拭目以待。
35
Diiiii
1月前
Taylor Swift 为什么这么火?并且能够火到这个份上,成为全球娱乐明星的独一档?看了一些相关的分析,大都归结于她的某些个人特质,比如有天赋、有才华、有商业头脑、善于经营社交媒体、非常努力、八卦多等等。不可否认这些当然都很重要,但个人感觉,除了这些微观层面上的归因之外,其实还有更为重要的宏观因素。

某种意义上,Taylor Swift 和周杰伦很像,都是各自国家的“最后一位大众流行歌手”。他们都崛起于传统媒介与互联网交接的年代,周杰伦早期的专辑都是用磁带和 CD,之后迅速有了 MP3,而Taylor Swift 的第一张专辑同时用 CD 和数字发行,这让他们既享受了主流媒体(电视、电台等)最后的曝光,也吃到了小众渠道(BBS、百度搜索、MySpace等)最初的红利,拥有了最广泛的 fan base。事实上,后续主流媒体没落之后,“主流艺人”也就跟着消失了(赵本山、郭德纲也都是靠主流媒体火起来的),老人、中年人、年轻人们各玩各的,“全民”级别的歌手艺人也不存在了。因此,个人认为,渠道的变化在很大程度上让内容和 IP 变得愈发碎片化和个性化,“老少皆宜”的爆款已经不复存在,就好像春晚的衰败一样。

这是一个空前割裂的时代。社交媒体的崛起,注定了只有那些拥有鲜明标签的、相对“极端化”的、甚至是有争议的内容,才符合算法的偏爱,而那些想要讨好大众、做“好好先生”的内容是很难被看到的。另外,尽管社交媒体有助于凝聚粉丝的力量,它更善于放大明星的缺点,以及曝光恶意的谣言。因此,在 Facebook 时代很难诞生一个新的 Miss Americana出来。我个人谨慎怀疑,如果 Taylor Swift 2015 年之后出道,假设做的事情都不变,也是没法火到今天这个程度的。

其实类似的现象同样存在于其他行业,比如政治(不再有 Obama、Clinton,只有 Trump Biden),比如影视(没看到有新的现象级演员、艺人出现,火的都是老 IP 的续集,比如漫威)。 以体育为例,各个项目的超级巨星大都是主流媒体时代的产物,无论是乔丹、舒马赫,还是泰森、伍兹。其中有些类似 Taylor Swift 和周杰伦的常青树,崛起于主流时代的余晖之中,一直坚持到了(移动)互联网的时代,进而成为体育届最后的辉煌,比如 C罗、梅西、费德勒、勒布朗詹姆斯这几位,获得了全球最大的曝光和最多的粉丝。至于更年轻的一代,无论是内马尔、姆巴佩,还是库里、德约科维奇,虽然天赋、能力同样出色(甚至有过之而无不及),但总感觉差一口气的样子。

当然,体育最终还是以客观成绩为基础的。随着运动科学的发展,不排除有成绩更好的运动员出现,或许还有下一代天王诞生的机会。这就像是企业家,虽然前社交媒体时代的 Steve Jobs, Bill Gates, Jeff Bezos 们同样符合上述现象,是“最后一代受人尊敬的企业家”,但如果之后的企业家能够做出 Elon Musk 级别的贡献,那么或许也能火出圈。只不过相比于上一代,围绕 Elon Musk 的争议要大得多。

周杰伦已经半退休了,中国前社交媒体时代的“最后主流艺人”已经不复存在。很好奇 Taylor Swift 还能坚持多久,以及美国能否跑出下一个真正意义上的天后出来。

Taylor Swift与财神爷的相同点

31
Diiiii
1月前
大模型的半年总结。2024年即将过半,是一个比较好的半年总结的时间点。还记得今年年初的时候,拾象的@广密 在和@张小珺 的访谈中做出了对大语言模型在 2024 年发展的十大预测,更重要的是给了一个比较好的行业观察框架。如今 2024 年已经过半,是时候把这个框架拿出来做一次半年 Review。当然,Review 的目的并不是看预测得多准,而是看看行业的共识与非共识发生了怎样的变化,以及背后的原因。(另外,个人认为这是个预测的重要性并不相同,最重要的是 Prediction1,6,7。)

Prediction 1:2024 年上半年是 LLM 军备竞赛关键赛点,格局形成后很难再改变。

Yes。目前看起来答案已经日趋明朗,在美国,闭源领域的OpenAI、Anthropic 和 [X.ai](x.ai),开源领域的 LLaMA 和 Mistral(应该算欧洲),这几家之外没有新的玩家入场,后续也很难了。国内的话,除了阿里、百度、字节、腾讯几个大厂之外,月之暗面、智谱、Minimax、百川、零一万物这几家独角兽都还有子弹,也没有新玩家入场。

一个有意思的问题是,闭源和开源的差距究竟是变大了还是缩小了?李广密坚持认为,差距表面上看起来缩小了,但事实上在变大。本质上差距的背后就是赤裸裸的算力,3.5 万张卡训练出来的几个 trillion 的模型,一定会显著好于 1 万张卡训练出来的 1 个 trillion 的 GPT4,只不过 3.5 万卡的集群构建需要的时间比想象中长,所以新模型的亮相时间被延后了。同理,明年会有 10 万张卡的集群,效果依旧会继续提升。

核心问题是:Scaling law 是否继续有效?GPT5 出来之前,我们都看不到实证性的证据。只能说,从大厂们花钱买卡的势头来看,至少他们都相信。

------------------

Prediction 2:数据短缺问题成为模型 bottleneck,合成数据是关键解法。

Not sure. 目前看起来,似乎没有哪家公开宣称数据不够了,但背后究竟是否用了合成数据,用了多少,就不太清楚了。个人倾向于,至少在 GPT5 出来之前,数据的瓶颈并不明显。

------------------

Prediction 3:2024 年会迎来端侧 LLM hype,会有开源模型团队被硬件厂商收购。

Not yet. 苹果的端侧模型比较亮眼,但也没有到 hype 的程度。个人认为端侧模型被高估了,随着大模型成本和 latency 的下降,更好的解决方案就是直接调基础模型。

硬件是个有趣的话题。

------------------

Prediction 4:多模态成为 LLM 在 2024 年的主流叙事。

Yes and No. 这个预测本身比较模糊,什么叫“主流叙事”很难定义清楚。目前来看,图像和视频理解上并没有看到实质性的巨大进步,反倒是 GPT4o 的发布让端到端实时音频的效果有了突破性的进展。3D 生成方面也有一些进展,但距离实用依旧很远。

视觉多模态无疑是主流的研究方向,但正如何恺明前一段在 MIT 所说的,在基础的科研层面上,尚未找到有效的 representation 和 embedding 的有效方法,能够让 self-supervise 运转起来。而 3D 方面,高质量数据的缺乏依旧是最大的困扰。

------------------

Prediction 5:视频生成会在 2024 年迎来“ChatGPT 时刻”。

Not yet。Sora 最初的惊艳之后始终保持低调,其他一些视觉生成模型也陆续发布,证明视频生成的门槛并不高。更重要的是,视频生成的可控性,在现阶段还无法达到生产环节所需要的要求,商业价值还较为有限,更像是一个玩具。个人感觉距离 ChatGPT 时刻还有相当的距离。

------------------

Prediction 6:新摩尔定律会解锁更多新应用的可能性,LLM-Native App 会在未来 6-12 个月迎来大规模爆发。

Not yet。这其实是最为重要的预测之一,但目前看来并未发生。目前 C 端的 LLM-Native App 依旧是 ChatGPT(月访问次数 2.6b,日活过亿?) 和 [Character.ai](character.ai) (DAU 600 万,估值小几个 billion),并且用户量相比半年前并没有显著增长。Midjourney,Suno 之类的 GenAI 应用也是一样。另外,GPTs 也是半死不活。

相比之下,C 端状况似乎比较好的是 Perplexity(2000 万 MAU,ARR 2000 万,估值 3b) - 我个人基本上已经用 Perplexity 取代了 Google。另外,教育类的几个应用(比如 answer.ai, 字节的 Gauth 和 作业帮的 [Question.AI](question.ai) 等)在北美都有了几万或十几万的 DAU 以及几十万美元的月营收,但这似乎更应当归类为“教育产品出海”而不是 GenAI。

个人认为,C 端的试错成本相对较低而迭代较快,因此如果有靠谱的想法,在 GPT4 已经发布5 个季度之后的今天,该尝试的都已经被试过了。至少目前来看,有一些“前人没想到”的爆款应用的概率已经越来越低了。

------------------

Prediction 7:2024 年,亿级 ARR 产品将批量出现,更多公司 5% 以上的收入贡献将来自 AI。

Not yet。和 Prediction6 一样,这是最为重要的预测之一,目前看来,真正达到亿级 ARR 的产品只有 GitHub Copilot(猜测ARR在 2亿美元左右),或许再加上微软的 M365 Copilot(目标是去年 Q3 到今年 Q2 结束时累计收入达到 1billion,实际肯定没完成)。二级市场的 SaaS 企业们,例如 Salesforce,ServiceNow,Workday 等等,AI 产品的路线图已经画了几个季度,但都迟迟不敢公布 AI 的实际营收贡献(猜测都不到 1%),继而引发了 SaaS 被 AI 颠覆的新叙事以及 SaaS 股票的估值新低。大家最看好的客服、营销等场景,

一级市场的融资也在下降。除了基础模型公司(例如 x.ai)之外,B 端应用层的企业只有Devin, Heygen等个别的企业拿到了大额的新融资。真正规模化的、ARR 超过 10m 的企业屈指可数。大多数企业都还在讲故事以及寻找 PMF 的阶段。

有趣的是,OpenAI 上周公布的 ARR 达到了 34 亿美元,猜测其中 80%都是B 端 API 的收入,再加上微软的分成和微软 Azure OpenAI API 的收入,估计有 50 亿美元以上的ARR,占到 SaaS 上市企业年收入的 1%。这些钱到底是谁花了?我个人的理解,其实这一波 GenAI 大企业还不太敢用,因为幻觉、合规、数据隐私、推理能力弱等问题,落地场景有限且周期过长,而 C 端用户大都是尝鲜,没有找到太多的付费点(除了学习类的刚需)。真正给 OpenAI API 付费的或许并不是少数“亿级 ARR”的大单品,而是广泛的中小企业和 Prosumer 群体,他们有生产力提效的需求,有一定的技术能力(至少会调用 API和写 prompt),且对幻觉的容忍度较高(大不了多试几次,有错自己改改就行了),在翻译、写作、素材生成、简单问答、文档总结、代码建议等场景下,直接调用 OpenAI 的 API 或者 间接使用套壳工具(比如沉浸式翻译、Monica、ChatPDF)就够了。因此,这一波AIaaS的形态是广撒网的长尾分布,缺乏头部效应。

在最近的这次访谈中,李广密认为,随着成本的下降会开启企业级应用的机会,例如可以大规模地尝试 RAG 检索。个人对此不是很乐观,因为目前 PMF 没找到,核心问题并不是成本高,而是推理能力不够,导致只能解决一些痒点而不是痛点。成本问题是找到 PMF 之后大范围推广阶段的关键问题。

------------------

Prediction 8:2024 是布局 Data Center 的重要时机,算力、Cooling 以及互联等环节均存在机遇。

不懂,只知道相关的能源类股票涨得不错。

------------------

Prediction 9:围绕 LLM 将发生一起具有影响力的网络安全事故。

Not yet。个人理解,这是因为LLM 的渗透率低于预期,所以还没来得及出事。

------------------

Prediction 10:具身智能还需 1-2 年才能真正迎来突破。

Yes。虽然不少具身智能公司都拿到了大额融资,但更多还是在产品 demo 阶段,在数据获取、技术路线等方面尚未形成行业共识,更不用说实际效果。因此,具身智能看起来还有较长的路要走。

当然,如果将自动驾驶也理解为广义的具身智能,那么 FSD 的实际进展是超预期的。它可能会成为第一个迎来真正突破的领域。

------------------

总的来说,我认为拾象的这10个预测是不错的思考框架,问了一些很 valid 的问题。和以往历次的技术创新一样,在早期很容易导致泡沫和高估,AI 也不例外。按照 Gartner 曲线来看,目前可能处于第一个 Hype 的顶点。

个人对 AI 的长期发展还是十分乐观的,但同时也承认现有 GPT4 的天花板效应也非常明显。Again,类比互联网时代,现在很像是 2008、09 年,当时 iPhone 已经被发明一年了,甚至 AppStore 也上线了,但网络环境只是 2G,依旧只有汤姆猫、切水果这些应用可以用。因此,最关键的 Prediction 是 Scaling Law 能否继续,何时能够突破 GPT4 的天花板,让推理能力有 meaningful 的进化。

新摩尔时代:拾象 2024 LLM 猜想

011
Diiiii
1月前
关于自动驾驶的播客中质量较高的一期,主要原因是嘉宾中有一位来自 Tesla FSD 团队的工程师,并且已经呆了 7 年,给出了很多有价值的第一手信息。一些 takeaways:

1. 关于端到端的价值:端到端最重要的价值是通过去掉人工定义的接口,让自动驾驶更加 scalable 。华为自动驾驶有六千个工程师,主要用来写各种规则,因为 rule-based 环境太复杂,总有新的 task 出现。真正的端到端的系统中,不需要人为定义这些 task。这也是为什么现在 FSD v12 可以做到每周更新。 (一个比较有意思的问题是,如果真的是端到端,那么车机上显式的视觉效果图是哪里来的?它的显示和真正模型的感知、决策是否 align?)

这种可泛化的 Scaling Law 大幅度降低了 Tesla 的成本。对比之下,Waymo 以及国内的竞品的成本要高得多,每开一个新城都要用自己的车队去铺,100 辆车*100 万人民币,再加上 operation cost,就是一个城市一个亿人民币,从商业模式来看不划算。

2. 关于算法的先进性:Tesla 的端到端在算法层面还是有独家秘籍的。相对于 OpenAI 的基本上透明化的架构,Tesla FSD 的算法和架构可能 70%-80% 都没有公开(之前每年的 AI Day 说得太多,现在索性停办了),算法上有较大的领先性。端到端和之前 rule - base 差异很大,上了端到端之后,团队变动也很大,Tesla 之前负责 planning control 的负责人就离职了。之前 Tesla 一直不愿意向中国团队开放代码阅读权限,上了端到端之后,已经不需要国内工程师了,国内只需要标注即可。

3. 关于软硬结合。Tesla 的另一个牛逼之处在于软硬结合,用 100TPS 低算力的自研芯片和硬件配套就可以完成其他公司用 1000TPS 的芯片也完成不了的任务。Tesla FSD v12 现在能够在 2018 年的HW3.0 硬件上丝滑地跑起来。硬件的低成本也给Tesla 带来了很大的渗透率和数据优势,相对于其他车企的智能配件都是选装的,Tesla 的智能配件是全部预装好的,也就是说每一辆车都可以用来收集数据。

4. 马斯克的价值。在 Tesla ,端到端的思想并不是 Musk 提出来的,而是自下而上提出来的。但马斯克的价值在于,他直接管理智能驾驶团队,深入了解一线技术,因此敢拍板做决策,并且亲自承担责任。到目前为止,他没有在技术 vision 层面上犯过大的错误,但在具体时间线的估计上常常比较激进,一方面是性格上过于乐观,另一方面也是团队管理的需要,同时给内部人才画饼和压力。

5. 纯视觉是唯一的路径吗?Tesla 如果当年保留了激光雷达,那么可能会造成工程师过于依赖激光雷达。只有极端地砍掉激光雷达,才能逼着团队在纯视觉的路线上做技术攻关。如果当年不这么做,那么 Tesla 的地位一定不如现在。之后会不会加激光雷达?没有给出明确答案。

6. 如何从 L2 L4?最重要的是大模型本身的演进,这也是 Tesla 专注的方向。一方面是积累更多数据来解决 corner case。过去几个月是FSD 第一次的大范围部署,包括北美全境, 也包括夏威夷和阿拉斯加,180 多万辆的车具备这样的功能,100 万辆下载了,尝试了。除此之外,一些其他路径也会有帮助,比如更加细致的导航地图,比如针对具体区域路径的微调,比如运营。后面这几个 Tesla 还没有开始做。

7. 关于 FSD 入华:中国的路况复杂度是美国的 10 倍,但好处是统一市场准入,并且在中国这种hard级别的路况搞定之后,全球其他地方都能搞定。之前没做中国,最重要的是因为搞不定数据合规问题,现在通过数据脱敏搞定了。今年政策上有很大利好,国内从总理级别开始明确支持 FSD 入华,接下来只需要把欠账补一下,把 intra 数据采集、标注、finetune 这一套从零到一走一遍,以 Tom Zhu 的执行力应该没啥问题。

8. 关于 RoboTaxi 揭幕,大概率是硬件的 unveil,把车子展示一下,从亮相到量产可能还需要十几到几十个月。由于法规限制和供应链复用等考虑,车型的设计不会太极端。

总之,从各位嘉宾的反馈来看,端到端路线能走多远、能否商业化落地,都还没有形成共识。我个人的感觉是,方向是清晰的,但道路是曲折的。

E156|自动驾驶领域的GPT时刻来了?聊聊特斯拉V12、FSD入华与RoboTaxi

硅谷101

620
Diiiii
1月前
这期播客阐述了一些真格对 GenAI 投资上的逻辑和观点,包括一些“非共识”。比较有趣的几个点:

1. @yusen 认为,这一波 GenAI 在“全自动”、“通用性”和“具身性” 这三个点上都被高估了,换句话说,现阶段真格更愿意投资那些辅助性(半人工)的、数字化(不涉及物理世界)的、领域专用(而非泛化)的GenAI Deal。

- autopilot 被高估了,copilot 更实际一些。现阶段在生产环境对可靠性和可解释性的要求,导致必须有human in the loop,用 copilot 的模式给 AI 指导监督,同时提供反馈数据;

- general 通用性和泛化性被高估了,specialized 更实际一些。领域专用的 AI 应用会比通用的 AI 应用更早落地;

- physical 具身智能被高估了,digital 更实际一些。具身智能在科研上还有大量的难题没有被解决,参考自动驾驶,从 2004 年的 DARPA 挑战赛到现在,花了足足 20 年的时间,但 L2 的 FSD 还没彻底落地。因此,真实世界中的挑战远比想象中更大。(个人比较赞同,但不少投资人都很中意通用/人型机器人,详见暗涌的文章《当月之暗面和MiniMax的投资人坐在一起》。)

2. 认为当下的 AI 一定有泡沫,但关键是泡沫下的啤酒有多少。泡沫未必有害,从历史上来看,泡沫会催生大量的基建,这些基建在当时是冗余的,但在之后会派上用场。另外,泡沫时代浪大鱼也大,伟大的公司都是泡沫时代的剩者。

3. 很多人都将 AI 与移动互联网的发展进行类比和印证,但二者的区别在哪里?yusen 认为,相比移动互联网人人都能做 App,AI 时代技术的限制更多;AI 时代,缺少新硬件导致纯软件很难建立壁垒,对创业公司的挑战更大(而移动互联网时代,智能手机对所有人来说都是新事物,起跑线是相同的);AI 时代创业的资本投入更大;AI 时代的模型是阶梯型创新,而移动互联网的基建是连续性创新,等等。

换句话说,假如硬要类比移动互联网,最简单粗暴的问题其实是:4G 什么时候来?没有 4G 的普及,那么抖音、滴滴、美团外卖、微信支付、拼多多的故事大都不成立,投再多的钱和再牛的创始人也没用,移动互联网或许只有微信和今日头条能跑出来,结果会是一个远远不够 sexy 的时代。

所以,GPT5 到底啥时候来?能达到预期么?

戴雨森:拥抱时代、乐观和年轻人的力量|串台AI科技评论Talk

此话当真

110
Diiiii
2月前
Google 的野心是想做 AI 时代的苹果?Ben Thompson 在最新一期的 Stratechery 里探讨了 AI 时代的开放与封闭战略,以及各个大厂的选择,尤其是 Google。他首先回顾了 PC 与手机时代的竞争,认为所谓的“开放 / 标准化 / 模块化战略”只会带来平庸的产品(尽管生产成本会下降,但体验的下降更大),比如 PC,比如安卓手机,而“封闭战略 / 垂直整合” 从结果来看是更好的战略,因为在设计上自由度更大,最终产品的体验更好,导致用户愿意为之支付溢价,比如 Mac 和 iPhone。

接下来的部分比较有意思。各个巨头反思了自己在前两个时代的战略之后,在 AI 时代做出了完全不同的选择。

Google 坚决向全栈的封闭系统转型,从最底层芯片就开始做自己的 TPU,之后的Cloud Infra(Google Cloud)、Model(Gemini)、Platform(Vertex)、Apps(Google Apps)都牢牢地攥在手里。从 Gemini 1.5 的 2m tokens 来看,已经隐隐有后来居上的趋势。(文中没有提,其实 Tesla 也是类似的,从芯片到应用,是一个彻底封闭的生态。)

Google 为什么要这么做?在智能手机时代,Google 的 Pixel 并没有获得 iPhone 式的成功,而它的 Android 作为“开源”的 OS,尽管份额很大,但反垄断的威胁让 Google Assistant、Google Maps 等等应用在 Android 端的渗透率和利润远低于 iOS 上的 Siri、Apple Maps 全家桶。Google 甚至每年需要交上百亿美元的“苹果税”来保证自己在 Safari 里默认搜索引擎的位置。这让 Pichai 铁了心不要重蹈覆辙,而是要做 AI 时代的 Apple。

对 Google 来说,新的 AI 能力可能带来颠覆苹果的一个绝佳机会(Moonshot),或者说是移动设备的一次范式转变。尽管缺乏硬件相关的设计制造营销能力(这是 Google 野心里最大的风险之一,另一个风险就是对搜索引擎现有商业模式的破坏),但如果能够提供从芯片到应用的完全无缝的 AI 体验,或许有可能让 Google 的移动设备起死回生,甚至取代苹果成为下一代时代的用户界面。这不,Google 在组织架构上已经有所动作。Pichai 在 4 月份的 Blog 上宣布,把 platforms teams 和 devices teams 进行整合,或许就是一个强烈的信号。

相比 Google,Amazon 则处于另一个极端,它非常开放,使用 Nvidia 的芯片,没有自己的模型,而是通过 Bedrock 允许客户使用任何模型。Amazon 的基础假设是,AI 价值链中的一切最终都将是模块化和商品化的,只有数据引力才会起到最重要的作用。所以,只要把用户数据攥在手里就够了。

至于 Meta 和 Microsoft 则处于中间状态,至少在芯片层都受制于 Nvidia。尤其是 Microsoft ,在关键的模型层完全依赖于 OpenAI。Ben Thompson 调侃道,去年10 月 Nadella 还在大吹特吹微软如何围绕 OpenAI 来提供全栈式服务,把模型的杠杆用到了极致,结果 1 个月之后就被 OpenAI 的宫斗打脸了。这让微软意识到 “将战略建立在与一个无法控制的合作伙伴整合上是非常危险的”。此后微软开始做了不少切割的工作,像 Amazon 一样允许客户使用第三方平台,并且开始重新启动自研。这也是不得已的选择。

在文章的最后,Ben Thompson 提出了自己的观点,他更倾向于开放而不是封闭,认为最终模型层的差异不会太大。换句话说,他认为 Google 的大一统野心很难实现。

原文:stratechery.com
210
Diiiii
2月前
很喜欢田渊栋的这个访谈。具体观点不谈,最打动我的是他的独立思考精神,不跟风、不亦步亦趋的风格。这并不是刻意的特立独行,而是一种探究世界的原始好奇心。在我看来,这才是人类最值得尊敬的品质。

引用几句原文:

“我是非主流bet,但这没关系。硅谷其实没有什么主流、非主流之分,因为每个人都会有自己的方法,并不是所有人都要学OpenAI,也许下一次科技革命的驱动就是从这些非主流开始的... 如果你想做得很好的话,一定要有自己的bet。如果你不make a bet,你能做的就是follow other people,很难走得更远。有Bet的好处在于,你可以一辈子一直走下去,人生不会觉得无聊... 我惊讶于他们 (OpenAI) 做得挺好,可能会适当调整下自己的策略,但是我依然认为自己是正确的。”

“最终的结局应该是,每个人都找到独一无二的方式去探索世界。人人都‘为五斗米折腰’的结果就是,所有人都有同质化倾向,这对未来发展不利。你跟硅谷的人聊会发现,他们不知道害怕,觉得‘我就是要上’、‘我就是要搞事情’。比如Ilya在谷歌已经很牛X了,但他还是离开Google,白手起家,这都是信念驱动的... 当你‘求生存’的时候,所有人都会想怎么赚钱,怎么找到保守的最佳路径,最后的结果就是大家都很同质化,但是未来世界不需要这些。每个人都应该有勇气去走一条别人没走过路,把这条路上的风雨分享给别人。别人有再多经验,都不是你的经验。这个世界总有一部分人会渴求自己尚未见过的世界,那些都是AI生成不了的,或AI没有足够的数据实现的。”

有胆识、有能力去建立自己的“非共识”,真的是一件迷人的事情。正如 Peter Thiel 的那个最著名的问题:What important truth do very few people agree with you on?

甲小姐对话田渊栋:Scaling law代表一个非常悲观的未来|甲子光年

05
Diiiii
2月前
上海的生育率跌到了令人发指的0.6,又引起了不少讨论。大家都在感叹人口问题有多严峻,但我个人其实最好奇的是,为什么计划生育政策延续了这么多年?为什么不早点取消?

国内似乎没有太多与此相关的讨论,兽楼处之前写过一篇被封了,最近又解封了。去简单 Google 了下,初步看下来,似乎有学术界一言堂的问题。中国的人口政策是由这些“人口学家”们来把持的,人口学这个专业的开山鼻祖就是宋健,之后演变成了学阀,徒子徒孙们都不敢大逆不道。直到 2003 年以后学术界才开始出现零星的反面意见,到 2010 年才有初步证据。全面放开二胎政策是 2015 年出台的,找到一篇 2013 年路透的文章,可以看到当时学术界还没有形成共识,支持和反对的声音还是难分伯仲。当然,公平地说,也不能都归咎于一两个人,毕竟做这种长期的估计还是非常困难的。我个人理解是,在早年建模过程中的假设出了比较大的问题,尤其是没有考虑到多年的计划生育政策和激烈的竞争环境对生育意愿的压抑。之前的假设是,如果政策放开了,人口能够快速回升,但这里高估了生育意愿的弹性。

最终生育率 = 生育意愿(理想子女数) * 生育实现率(实际执行率)。中国最大的问题在于,生育意愿在这些年下降得太狠了。这可以从下图中看到,1995-2003 年出生的女生,“理想子女数”才只有 1.3,天花板就只有这么低... 相比之下,即便是韩国,至少人家还是想生的,“理想子女数”接近 2.5...

人口是个慢变量,有很强的后置属性。猜测建模、统计和跟踪的时候没有考虑到这些前置指标,或者至少没有放在足够的优先级上,以致于当发现最终结果出了问题之后,已经来不及了。

除了学术原因之外,计划生育部门的既得利益者们应该也会施加很大的阻力。但最主要的问题还是学术界的认知问题,以及政策的惯性问题。

总之,40 年前顶层设计的人口战略,如何逐渐过时,为什么没有被及时纠偏,其实是非常值得反思与复盘的。遗憾的是这方面的关注和讨论还是太少了。

相关链接:
《兽爷丨反对者的四十年》:mp.weixin.qq.com

《A New Low—上海户籍人口生育数据》:mp.weixin.qq.com

《各国生育率都在下降,但是为什么东亚降到全球最低?|於嘉 一席第1043位讲者》: mp.weixin.qq.com

《梁建章:人口经济学十五讲》:mp.weixin.qq.com
1025
Diiiii
2月前
这期 Latent Space 还挺有趣的,访谈对象是 Jesse Silver,他们的产品专门服务 OnlyFans 这类成人平台上的色情创作者,算是一个小 SaaS 工具(注意并不是类似 c.ai 星野 这种捏崽游戏,而是辅助个人创作者的数字分身)。虽然由于政治正确等原因,这类产品被讨论得很少,但它们其实是 LLM 的最佳落地场景之一,是大模型时代的隐形冠军。一些 key takeaways:

用户需求:

- C端: “80%的客户群体是男性。第一,他们感到孤独,他们只是在寻找人来交谈;第二,他们为了更方便地寻找内容(这类粉丝完全接受与AI交谈,他们主要是为了方便);第三个也是最有成效的是,他们试图玩权力或幻想游戏(they're trying to play power games or fantasies that have a stake)。”这是一种具有目标、胜利条件的游戏式体验,很多时候是一次性的新鲜体验,月流失率约为 50%至 80%,回头客大约只有 10%。因此,产品的目标不是增加对话轮次,而是帮助大 V 销售内容产品,monetize the conversation。

- B端:OnlyFans 上的创作者,主要需求是增加收入,维护品牌。大约 80%的收入来自粉丝聊天。每分钟都有很多粉丝上线,可能会有 50 个并发的会话,平均会话时间在七八分钟左右,但对延时的要求很高,必须在 2 分钟内做出回应。创作者与粉丝聊天,试图向他们销售视频,与他们建立关系。这非常耗时。他们也可以运营一个离岸外包团队,但很困难,需要雇佣很多人,且离岸外包常见的国家互联网速度很慢。或者他们可以与代理机构合作,但溢价很高。

一些产品上的 know how:

- 从“榜一大哥”入手。“当我们接到新的创作者客户时,我们给自己定下的标准是,要能够无缝地与花了 2 万美元的粉丝进行对话。你需要能够了解这些大粉丝的偏好,他们是谁,他们买了什么。然后你还需要能够进行类似的对话,以符合他们可能习惯的方式。”

- 如何模仿创作者,如何把握好语气? “我们合作的第一个月收入超过 15 万美元的创作者,产品上线后,在两天内没有产生任何收入。出了什么问题?这个账号之前是由一个海外聊天团队运营的,我们试图弄清楚他们做了什么,为什么他们成功了。我们发现,他们的做法是威胁粉丝,威胁离开,骚扰粉丝。粉丝们都不高兴,都在抱怨。原来这位创作者是一个众所周知的不可接近的天后类型,而我们的产品却对粉丝很友好:“哦,我很高兴认识你。你叫什么名字?”等等。这就打破了创作者不可接近的品牌形象。于是我们意识到,我们需要能够根据创作者的品牌和粉丝期望的互动类型,为粉丝提供一致的体验。我们不希望违背这种期望…但对于御姐女主角类型,你需要能够证明自己并征服粉丝并赢得他们的好感,粉丝会想要证明自己并不断失败,而对于邻家女孩类型,你需要展示自己,并且找到他们喜欢的东西,建立亲密关系。

- 如何通过标准化的流程来“玩弄”和“挑逗”用户预期,让用户首先建立安全感,之后建立相互的信任关系。I guess I'd like to inject the overall fan experience just to provide sort of a structure of it is that if you imagine sort of online girlfriend experience or girl next door, if you reach out to this creator and say, I'm horny and she just goes, great, here's a picture of me. I'm ready to play with you. That's not that interesting to a fan. What is interesting is if you say the same thing and she says, I don't even know who you are. Tell me about yourself. And they get to talking and the fan is talking about their interests and their projects. And she's like, oh, that's so cool. Your project is so interesting. You're so smart. And then the fan feels safe and gets to express themselves and they express their desires and what they want. And then at some point they're like, wow, you're really attractive. And the creator just goes from there. And so there's this structure of an escalation of explicitness. There's the relationship building phase. The play that you do has to not make the customer win the first time or even the second time. There has to be more that the customer is wanting in each successive interaction.

- 如何处理“记忆”问题?这块是团队的核心策略,没有讲太多,只是提到很多时候并不是记得越清楚越好。

- 反馈迭代。创作者非常关心产品,因为这个产品在一对一的互动中复制了他们的个人品牌。他们对提供反馈并不害羞。我们喜欢反馈。因此,我们非常习惯在个人资料上发布后收到“这错了,那错了。你怎么这样对待这个人?你说的这个词是错的。这是一个奇怪的回应,等等。”然后我们能够从中学习并建立相应的流程。

- 评估与考核。最核心的指标是用户付费率,过程中会持续用 LLM 对用户的情绪进行监控,正常粉丝生气的比例为 30%,但如果突然上升到 70%,就会进行干预,等等。有专门的运营团队。

- 安全很重要。尤其针对这类产品,尺度的判断是关键。团队在工作流里使用了大量的推理模块河 RLHF,还有红队测试。

- 如何处理隐私、“我们不能只是凭空臆想回答这些问题。尤其是我们不能凭空臆想你住在哪里,比如我住在 5553 号大街。粉丝对于接收与他们期望接收的略有不同的东西很敏感。”

- 工具栈:最早用的是低代码工具,之后转向DSPy,利用其实时优化的能力和更优雅的工作流程,同时支持更方便地微调模型。

商业模式:“我们已经与超过 150 位创作者合,每天与大约 5 万粉丝交流,对应的粉丝规模超过 200 万。我们合作的创作者通常在月收入的范围从 2万 15万 不等(这是在我们与他们一起合作推出产品之后),合作使他们的收入增加 2 5 倍。我们只会拿他们销售额的 20%,而且我们不会从他们之前订阅或销售中获得的收入中抽取任何费用,我们只会直接拿我们合作销售额的那部分。

我们正在与一位创作者合作,每天我们为她从 100 个粉丝那里赚取 3000 5000 美元,而80%的人会流失。所以粉丝大都是新人。但这也是为什么这个商业模式在 OpenAI 上跑不通,因为获客成本远远高于 30 美元。”

GTM:“我们开发了一个原型,并参加了 AVN,这是最大的粉丝大会之一,然后向主流色情行业的人们推销。我们获得了大约 5 万美元的总交易额和一些合作伙伴。”

Emulating Humans with NSFW Chatbots - with Jesse Silver

015
Diiiii
2月前
猜猜 GPT5 和美联储降息哪个先来(《兼论Sam Altman和鲍威尔的预期管理》)
30