即刻App年轻人的同好社区
下载
App内打开
Diiiii
241关注3k被关注11夸夸
置顶
Diiiii
4月前
2024 年的第一天,决定做一些新的尝试,开始一个新的付费分享社群项目,目的是建立一种“受托责任”,为自己构建“良性的压力”。如 Light 在《笔记的方法》里所说 :“如果一个人花了大力气去写文章却没多少人阅读,那么他自然很难坚持下去。而付费专栏就不一样了,因为收了读者的费用,哪怕没有几个人订阅,也会产生一种持续履约的义务 - 这是一种良性的压力,让他有持续不断的动力去更新小报童里的内容。”

分享群的名字叫做 “Seeking Wisdom”,取自《探寻智慧:从达尔文到芒格》这本书的书名,希望将探索智慧作为终身学习的目标,不断提高输入、输出质量,收集优质反馈,和群友们一起将自己打造成越来越优质的 Learning Machines,为人类文明的熵减做出自己微薄的贡献。

.
# 适合什么样的用户

1. 具有强烈的好奇心,是重度的信息控,非常注重每天摄入信息的质量。

2. 追求信息的“半衰期”而不是“新鲜度”,相比于新闻,更关注信息是否可以长期保值。换句话说,是信息的“价值投资者”而不是“投机者”。

3. 关注科技,尤其是人工智能,并且具备一定的基础认知素养。

4. 终身学习实践者,希望能够找到同路人,共同进步。

5. 对于我以往分享内容的质量较为认可。

.
# 提供的服务

1. 每日“旧文”。太多人喜欢追“新”,但褪去时效性的外衣之后,这些被咀嚼过一次的内容的下场,往往是尘封在“已读”或“收藏夹”里,再也无人问津。想一想,你收藏过多少内容?收藏后,其中又有多少被重新读过?这个时代,我们往往习惯于把信息当做知识,把收藏当做学习,把阅读当做思考,把储存当做掌握。我们像只边掰棒子边扔掉的狗熊,亦或是执着于收藏坚果的花栗鼠,把自己的内存和硬盘塞得满满当当,却依旧觉得饥渴难耐。

不如试着换个口味,试试那些保质期较长、营养更加丰富的食物?每个工作日,我会挑选一篇“老内容”来进行“温故知新”,这个内容可能是几个月前的,也可能是几年前的,但一定是我认为已经经受了时间考验的、“没有过时”的内容,同时附加我推荐的理由(文字)。它可能是文章(中文 / 英文)、视频、播客、读书笔记、课程等不同的模态,主要内容可能偏科技、人工智能、投资、终身学习、思维模型等等。

2. 每月思维模型分享。如何把“知识”串联起来,放在一个框架下面?如何建构大脑中一个个的思维模型 App,以便在思考时更多调用自己的“系统 2” 而不是“系统 1”?每个月,我会分享 1 个对自己来说非常实用的思维模型,例如芒格先生尤其推崇的心理学领域的“误判心理学模型”、投资领域的“跨越鸿沟模型”、健康领域的“长寿抗衰模型”等等,以视频+PPT 的方式来进行讲解,内容是自己根据个人研究、读书及实践经验所整理得来。自从芒格提出了“思维模型”这个概念以来,相关的文章很多,但一直没有人系统整理过靠谱的思维模型。我希望通过 10 年的时间,慢慢积累 100 个左右的真正有价值的思维模型。

3. 日常碎片信息分享。我会从自己阅读的数十个中英文信源中,不定期分享一些个人认为优质的碎片信息,比如文章、短视频、图片等,有用的或是有趣的,平均下来每天不超过 3 条,但不保证更新频率。

4. 允许就特定话题做适当深度展开,但谢绝灌水及聊天。

.
# 服务的局限

1. 专业领域局限。由于个人所从事的行业是科技投资,因此分享的内容中有相当一部分会是和科技(尤其是人工智能)、一二级市场投资、宏观经济等相关的,会有一定的专业门槛。虽然个人的兴趣爱好相对广泛,会尽量拓展自己分享的领域宽度,但重点难免还是偏向科技投资方向。不喜勿进。

2. 语言局限。分享的内容中,可能会有 20%左右是英文的。我会尽量找有中文翻译或字幕的内容,但不作任何保证。不喜勿进。

3. 个人能力局限。和各位一样,我只是一个还在终身学习路上的同路人,水平有限。期待着能够和大家一起共同进步。

.
# 如何加入

加入方法是扫二维码加好友,之后会有付费及试用期说明。如果是朋友推荐,请注明推荐人名字。

感恩遇见,希望有缘可以共同进步。
43
Diiiii
3天前
小扎的这个访谈里最有趣的部分,在我看来并不是对 Llama3 的介绍或则对 AGI 的畅想,而是他首次表达了对“开源”的某种潜在的纠结。“我们显然非常支持开源,但我并没有承诺发布我们所做的每一件事。” 这里面有冠冕堂皇的原因和借口,比如要“对人类安全负责任”,要“防止中国用它来赶上美国”等等,但被 Dwarkesh Patel 追问到最后还是说了几句实话:一切终究都是利益问题。

他举了当年 Facebook Instagram 的部分开源中受益的例子:“我们没有将 Instagram 的代码开源,但我们把大量低级基础设施的代码开源了,把所有服务器、网络交换机和数据中心的设计都开源了,这最终变得非常有价值。行业对我们的设计进行了标准化,这意味着供应链基本上都是围绕我们的设计建立的。因此,Volumn 上升了,对每个人来说都变得更便宜了,它为我们节省了数十亿美元,这真是太棒了... 如果(Llama的开源)最终像数据库、缓存系统或架构的开源一样,让我们能从社区获得宝贵的贡献,让我们和社区都变得更好,那么这就是有价值的。”

但是,注意小扎的这个“但是”,“也可能情况不是如此。或许模型最终就是产品本身,那么能否开源就要重新算账了。”(There is one world where maybe that’s not the case. Maybe the model ends up being more of the product itself. I think it's a trickier economic calculation then, whether you open source that.

一边是飙升的成本,另一边是有限的回报。按照之前广密那篇访谈里计算的,未来 12 个月里,LLM 军备竞赛的门槛可能会提升到 10万张H100 / 50亿美元 这个数量级,之后可能会继续升级到百亿美元,而号称开源的玩家似乎也只剩下了Llama xAI。更重要的是,和之前开源社区能够集合全球程序员的智力资产和使用标准,进而建设有价值的生态规范不同,在这一次算力驱动的 LLM 竞赛里,主导因素是能源和 GPU,相比之下“社区”起到的贡献似乎并不大。想像一下,Llama 的开源除了让很多公司可以免费白嫖 Meta 的训练算力之外,到底催生了哪些有价值的应用或生态呢?那些现在基于 Llama 的应用或基建,如果未来 xAI 的模型能力显著好于 Llama,是否也会毫不迟疑地弃 Llama 如弃敝履呢?如果是这样,那么这个开源的意义对 Meta 来说究竟有多大呢?

最根本原因或许是,“全球程序员”这个群体的智力资产正在以摩尔定律的速度进行贬值,变得越来越不值钱吧...[偷笑]

百亿美金开源模型Llama3: 小札最新2万字访谈披露一切 · 全纪录+视频

31
Diiiii
5天前
看完 Netflix 版的《三体》,感叹果然人脑还是最复杂的。三体人已经搞定了能源问题,能把自己加速到 10%的光速,能够构造出质子和水滴这种级别的武器,但依旧无法 hack 人脑,搞清楚碳基生命的脑神经是如何运作的...

所以我一直认为,脑机接口是比可控核聚变更难的一个问题。如果可控核聚变永远需要 50 年,那么脑机接口能否在 21 世纪之内实现都要打一个问号。
10
Diiiii
13天前
3Blue1Brown 刚出了 Transformer 的系列科普视频,做得很好。之前看过不少讲 Transformer 的课程和文章,包括李宏毅老师的课程在内,最后都陷在矩阵运算的过程里,几乎没有能把 K、Q、V三个矩阵的象征意义讲清楚的。3Blue1Brown通过自己最擅长的动画和类比,把这套 Attention 的原理讲得比较浅显和直白。

具体来说,“Attention 像是问每个 vector 一连串问题,然后根据这串问题的答案来更新自己。” Query 矩阵就像是在问:"Are you in English?", “Are you a noun?”, "Do you refer to a person?", "Are you a number?", "Is your tone positive?" 等等,Key 矩阵就像是 vector 对这个问题的答案,而 Value 矩阵则代表向量自己根据这个答案和相关性权重进行的自我调整。整个过程有点像是物理中的受力分析,每个 Attention Head 代表一种力,通过 Q K 找到所有施力的对象,再通过 V 来计算受力的大小, 最后,把多个 Attention Head 代表的多个力进行加总,计算出合力的方向和大小,作用在最后一个Vector上,从而指向 next embedding。之所以叫 transformer,就是指各个不同的力汇总在一起,将原本的 vector 扭曲到了一个新的方向上。

相比之前的 RNN、LSTM 之类的模型,Transformer 的强大在于其支持并发计算。细想之下,这种并行的自注意机制颠覆了语言中的时间观,顺序不再重要。这让我想起《你一生的故事》/ 《降临》里七肢桶的语言 - 把完整的生命在眼前一下子同时铺开,没有先后,没有早晚,没有时间。类似的,Sora 中的所谓 spacetime patches,索性把空间也和时间打包在一起,颇像是爱因斯坦相对论里对“时空”的理解。或许,所谓的时间、空间,其实都是伪概念,只不过是 tokens/patches 的一种分布方式而已。还挺有趣的。

P.S. 到目前为止看过的对 Diffusion 扩散思想的最好类比来自李宏毅老师的课程,他把扩散模型的去噪过程比作工匠雕刻石头的过程,“雕像本来就在石头里,米开朗基罗只是把不要的部分去掉”。某种程度上,这个减熵过程也颇像是逆转时间。

【3Blue1Brown熟肉】注意力机制可视化_哔哩哔哩_bilibili

419
Diiiii
13天前
很有意思的一个评测。虽然 Humane 这个产品很拉胯,但需求是真实存在的。主持人在演示中的所有需求,看似手机都可以满足,但“掏出手机、解锁、找到对应的 App、点击图标启动 App、找到并使用相应功能、关闭手机屏幕、把手机放回原处”这一系列动作的能量开销太大了,相对于“这座桥的名字是什么”、“这罐饮料的卡路里是多少”、“播放xxx 歌曲”这些需求来说,ROI 性价比太低。

因此,对于一个轻量级、低摩擦的随身便携智能设备的需求恐怕是真实存在的,这个设备需要有眼睛、耳朵作为感知设备,需要有大脑(并且延迟要足够低),需要有嘴巴作为输出(但看似并不需要屏幕或投影之类的输出)。如果真的有这样一个设备,或许可以承接相当多的手机使用需求。这样看来,智能的手表(+耳机)、眼镜(+耳机)、pin、戒指或许都有巨大的潜力。

瓦恁: 这个评测做得非常好

22
Diiiii
17天前
这期高能量的后半部分比较有趣,探讨了大国的决策逻辑,很多时候看似是政治选择,但背后实际上的关键因素是经济利益和国家安全。

丰叔提到,2023 年美国有四个品类的出口是全球第一,分别是军事,能源,粮食,半导体。这在很大程度上都是俄乌战争的红利。美国的军事出口一直是全球第一,23 年受俄乌和巴以战争的需求刺激,生意格外好;粮食也是因为俄乌战争,把欧洲粮仓的很大一部分需求拿了过来;能源更是截胡了一部分欧洲和日韩对中亚需求。换句话说,美国在出口上是俄乌战争的最大受益者。

以能源为例。如果纯粹从绿色、环保等政治正确的角度来看,毫无疑问每个国家都应该坚定地往新能源的方向转型。从效率的角度来看,物理定律也告诉我们,太阳能直接转化成电能(不经过燃油)的损耗也是最小的。于是,大家的口号都是这么喊的,要降低碳排放。然而,在实际执行中,由于国家安全和经济利益的不同,美国、中国、欧洲、日本在新能源转型的策略上大相径庭。

美国的新能源转型速度比预期要慢得多。长期以来美国都是能源的进口国,严重依赖中东的石油。但自从美国成功开采了页岩气之后,一夜之间变成了全球最大的能源出口国之一,每天生产 1000 多万桶石油,2/3自用,剩余 400 万桶出口。从国家安全的角度,美国也完全实现了油气的自给自足,同时油气已经变成了美国最赚钱和最大的出口商品品类之一。(很有意思的一点是,美国希望石油的价格不要太低,因为页岩气的开采成本相对较高,印象中要卖到 40 多美元一桶才有合理利润,但同时美国又不希望石油价格涨得太高,担心这样会加速通胀。)因此,无论是民主党还是共和党,未来在政策上都不会对新能源和新能源车有过度的倾斜。(这也解释了为什么美国各州都在逐步取消新能源补贴,以及特斯拉在美国的销量下滑。)

中国则是全球新能源转型最坚决的国家。一方面,在国家安全上,当前中国的能源对外依存度很高,70+%的石油和40+%的天然气都依赖进口,因此目前需要保证煤炭做主力支撑。而在新能源的维度上,中国是全球最大的光伏生产国,也拥有全球最大规模的在建核电站。另一方面,在经济利益的角度,新能源汽车已经成为中国最大的新兴产业之一。这也是中国竭尽全力拥抱新能源的逻辑。

欧洲则比较纠结。一直以来,欧洲的能源都无法实现自给,之前是靠中亚,今天靠美国。从国家安全的角度来看,欧洲中长期一定会努力实现能源自给自足,但是短期来看有两个限制,一是被美国的约束较大,需要顾及美国的利益,二是经济上,燃油车对欧洲(尤其是德国)来说还是最大的存量产业之一,需要做一定的保护,应对中国新能源汽车对经济的冲击。因此,欧洲在新能源转型上曾经是优等生,渗透率最高,转型最快,但由于上述条件所限,它注定会经历一个进进退退的过程,例如它近期取消了之前制定的一些过于激进的“禁止燃油车”之类的政策,但并不是取消了新能源车的整体发展政策。

日本则是坚决拥抱氢能源。在国家安全的角度,日本也面临卡脖子的问题,它当前的主要能源严重依赖美国,长期必须要解决能源自给自足的问题,可能的选择有几个:新能源电池,日本缺乏相关的电池原材料,镍钴锂都没有,一样会被卡脖子,所以不能选;太阳能,地理条件和国土面积不支持,无法大规模依靠太阳能;核能,原本是最好的选择,但由于福岛事故,丧失了民众的支持。选来选去,只能选氢能源。这也解释了为什么日本早早就开始 all in 氢能,即便技术上迟迟没有较大突破也在一直坚持;为什么日本明明最早做出了普瑞斯这样的新能源车型,但并未坚持。

上面的这个简单的对比可以看出,没有什么所谓的政治正确,只有国家安全和利益。能源问题如此,军事、粮食、芯片等问题也同样如此,甚至播客中提到的 tiktok、生物制药等问题,背后都是国家安全与利益的博弈。我一直认为,第三次世界大战已经在如火如荼地进行中了,只不过不是用能量热战的方式,而是以金融、科技等信息战的方式。换句话说,我们正身处于战时之中。

从技术的长期发展来看,最终一切问题都是能源问题。如果新能源的转化效率高于传统能源,那么率先全面拥抱新能源的国家一定会享受到某种红利。中国在基础设施投入、充电网络、市场教育等方面已经走在了世界前列,反观美国、欧洲、日本,短期内斗在徘徊。而另一边,AI 的发展已经将能源供给问题迅速提上了日程,也暴露出了美国在基础输电网络方面的很多问题。芯片方面我们无疑是严重落后的,但能源上或许有曲线超越的机会也说不定。

Vol.101 宏观漫谈46|怎么看今天A股、TikTok和新能源遇到的挑战:与李丰聊利益摩擦背后的大国博弈

高能量

12
Diiiii
18天前
今天带闺女去尤伦斯看了杉本博司的展《无尽的刹那》(The Time Machine),颇有感触。

非常喜欢看这种艺术家的个人回顾展,会将其各个时期的代表作品按照特定的顺序组合在一期,如果策展到位,再配上优秀的讲解员,会帮你窥见艺术家完整的创作理念和进化历程。今天的展览就是如此。

作为一位观念艺术家,杉本博司的母题是“时间”,而他最擅长的表达手法是黑白摄影、大画幅与长曝光。作为艺术家,他顿悟的刹那是自己 28 岁在纽约自然博物馆里拍摄北极熊标本时 - “放在画布前的毛绒玩具看起来完全是假的,但是闭着眼睛快速看一眼,所有的透视都消失了,突然看起来很真实。我找到了一种像照相机一样看世界的方法。即使是假的物体,一旦拍摄,它就和真实的一样... 就在我亲眼看到自己成功地让这头熊在底片上活过来的那一刻,我的艺术家生涯开始了。”

长曝光对被摄物体的限制,反而成就了杉本博司独特的艺术语言。在漫长曝光时间的酝酿之下,照片的细节丰富,栩栩如生,但被摄的主体往往却是“虚假”的 - 无论是动物标本还是人物蜡像,无论是建筑还是剧场。这种反差在细品之下很有味道。摄影原本是“瞬间的永恒”,但在杉本博司的镜头里,“瞬间”被拉长了 - 《透视画馆》里的每个动物标本拍了 20 分钟(“在长时的曝光过程里,他们仿佛进到影像里头定居了”),而《剧院》系列里的曝光时间更是长达 2 个小时,将 172800 帧画面叠加成一块纯白色的银幕。同时,“永恒”又被压缩了,标本也好,蜡像也好,建筑也好,原本就是人工创作的时空切片,被二次拍摄之后,变成了被双重压缩的人造像素。于是,这些不同主题的作品,在瞬间与永恒的虚实之间徘徊,组合成《无尽的刹那》,唤起了不少思考的趣味。所谓“假作真时真亦假,无为有处有还无。”

杉本博司很有野心。在他看来,人生也好,甚至人类的历史也好,都不过是一次漫长的曝光罢了。“从落地后第一次睁开双眼的那刻起,到临终躺在床头阖眼的那刻为止,人类的曝光时间,就只有这么一次。” 于是,他试图通过自己的相机打造一架 Time Machine,邀请观众来观看数十年前自己生命最初的印象,观看几百年前平安时代京都三十三间堂的《佛之海》,观看千年前奈良的当麻寺,观看数万年前人类诞生时的海景... 他抹去了镜头中一切包含着时间元素的符号,无论是人物、船只、飞鸟乃至白云,只保留那些永恒的意象,那些哪怕几十、几百、几千、几万年之后再看也不过时的、无从分辨的幻境。作为观众,你就这样被剥夺了存在的线索和感知,一把丢进了“时间和精神的房间”,感受杉本博司版本的永恒。

久违的被摄影作品击中的感觉。真好。
11
Diiiii
22天前
为什么 Suno 无法颠覆音乐行业?

Suno 的效果比较惊艳,大幅降低了音乐的创作门槛,历史上第一次让普通用户就能创作出水准在线的音乐作品。我让 11 岁的闺女试了一下,大概 20 分钟的时间,就能够使用 Claude3 + Suno v3 创作出一首非常 personal 的、有很强个人叙事的、完成度比较高的作品,并且她自己也很喜欢。另外,现在已经有一些 Suno 创作的社区和榜单,里面的头部歌曲确实都比较好听,甚至与目前的华语流行音乐榜单里的作品不相上下。从这个角度来看,Suno 的确非常厉害。

然而,我个人依旧不是很看好 Suno 能够颠覆音乐行业这个预期,主要原因有以下几点。

首先,在供给端,音乐 / 歌曲的价值和流行和创作质量的关系没有那么大。歌曲更多是一种文化共鸣的结果,并不存在所谓”绝对的好歌“,只有”广为传唱的歌“。

这里提出一个非共识:音乐作品”好“、”坏“之间的区分度没有想象中那么大。由于作品容量的问题,一首歌曲只有 4 分钟左右,再刨除掉重复的副歌,真正能够承载的信息量非常有限。相对于小说、电影、剧集、游戏来说,歌曲的信息量是最低的,因此区分度也是最小的。

在审美原理上,和其他媒介类似,歌曲 / 音乐的本质是对多巴胺的刺激,是对用户预期的操纵,是和谐音 / 不和谐音的适当组合(类似华晨宇说的4536251之类的和弦套路。和谐音多了,就会更偏口水歌,和谐音少些,就会更”冷门“,要找到最佳比例)。因此,音乐的创作遵循某种“公式”,从彩铃时代开始,到抖音时代,再到 AI 时代,工业化批量创作一些旋律上头的作品都是可行的,并且效率越来越高。当然,这种方法只能做出一些“爆款歌曲”(理论上传播度足够高)的候选,能否真正爆,更多是某种偶然因素,是天时地利人和凑在一起的小概率事件,是社会学群体复杂行为的随机结果。这点之后再详说。

从另一个角度也可以说明音乐作品的“绝对质量”没有那么重要,或者说并不存在”绝对的、永恒的好歌“。音乐是有时代属性的,让 00 后、10 后的小朋友去听几十年前的金曲,他们大多数并不感冒。虽然小说、电影、游戏、绘画也都有类似的现象,但其经典作品的半衰期会更长一些,原因大概也在于信息量和差异化更大。

特别有趣的一点是,在绘画、小说、电影里,都存在所谓“遗珠”的作品,即在创作当事时没有得到认可,但是经过后世的挖掘之后重获新生、乃至步入殿堂的作品,比如梵高的画,比如电影《大话西游》,其经典地位都是被“追封”的。但是我没有想到任何一首歌曲是被考古挖掘出来后火起来的。这从某种意义上证明了,歌曲的流行文化属性远大于其艺术属性。

既然歌曲之间的质量差异并不明显,那么决定“好歌”与否的关键,其实是传唱度 - 这决定了人们能否形成某种“群体共同记忆”。所以在流行歌曲的全盛时期,最关键的因素就是“打榜”和“上通告”,这本质上是一个投放过程,选择一些传播度足够高,找到尽量多的种子用户进行投放,期待着他们能被洗脑,然后开始传播。类似于 R0 足够高的病毒感染过程。

对用户来说,当满大街播放的都是这种洗脑神曲时,神经网络已经充分学习到了其中的起承转合,建立了正确的预期。正确的预期本身是多巴胺的另一种奖励机制。很多人都有这样的经历,就是你听一首歌,第一遍觉得平平无奇,后结果从第二遍开始就越听越上头,越听越喜欢,或者一首歌它在刚出来的时候就不是很受欢迎,但是电台的DJ知道这个音乐是一个好东,所以他就在他的节目里一遍一遍地放这个歌,然后最后把这个歌拯救了。随着我们的熟悉程度增加,越来越喜欢音乐的这个过程,原因就是我们越来越擅长对这首音乐做出正确的预测。因此,洗脑洗得越狠,歌曲就越上口,多巴胺就分泌得越多,歌曲就越“好听”。

可见,所谓的“好歌”,首先要符合一定的审美规律,其次就是播放足够多,“耳熟能详”。00 后觉得几十年前的金曲不好听,是因为他们听得次数不够多,没来得及被洗脑而已。

因此,我毫不怀疑 Suno 能够生成符合审美规律的足够高质量的歌曲,但我严重怀疑它能否产生足够“洗脑”的、播放量足够大的“好歌”。

这是供给端的问题。

其次,在需求端,用户已经不再听音乐了。优秀音乐作品的供给并不稀缺,稀缺的是需求,是用户的注意力。

想一想,过去三年有哪些新歌火了?基本上能达到《相约九八》、《青花瓷》这种传唱度的,一首都没有。上一首类似的歌曲,恐怕是“一起学猫叫,一起喵喵喵”。

这是因为中国的音乐人再也写不出《相约九八》、《青花瓷》这种级别的好歌了吗?我相信不是的。中国的音乐人和音乐作品一直以来都是过剩的。去网易云音乐和豆瓣音乐人看看,有多少怀才不遇的音乐人。之前在做在线音乐的时候,曲库里躺着几千万首歌曲,但绝大部分是无人问津的。每个月至少被播放一次的歌曲,加在一起只有 1、2 百万首,其余 95%以上的都是零播放的“僵尸歌曲”。Suno 的出现只是加速了僵尸歌曲的扩张速度而已。每个人都可以写歌,结果只是供需变得更加不平衡。

真正稀缺的,是用户的注意力。随着短视频的崛起,音乐的时长份额在最近几年下降得非常厉害。换句话说,用户还在听歌,只不过变成了边看短视频边听里面的背景音乐,音乐愈发沦为了短视频的“周边”。仔细想想,最近几年似乎已经没有什么大众意义上的新晋歌手了,播放最多的歌曲只有两类,一类是短视频的背景歌曲,另一类是影视/综艺节目产出的歌曲,而传统意义上那些歌手发行的歌曲,似乎也只有明星的粉丝会去关注。这种状况也可以理解 - 毕竟用户花了最多的时间在刷短视频和刷影视综艺上,音乐媒介分到的用户注意力份额越来越小。

作为用户,如果你现在有 5 分钟、10 分钟、30 分钟的时间,你会选择做什么?你可能会选择刷一会儿抖音,刷刷微博或朋友圈,或者打一局王者荣耀,时间再长一些,可能会打一些 3A 游戏,读会儿书,或者看个电影。而“专心听音乐”已经不再是其中的一个选项(我小时候的时候曾经是的)。因此,现在音乐已经不存在所谓“独占注意力”的场景,更多的时候只能是在开车、运动、做家务/做作业/工作、睡前这些伴随场景存在。这也导致音乐对应的注意力份额严重下降。没有注意力,也就更谈不上“洗脑” - 连洗脑的机会都没有,当然,除了作为短视频和影视综艺的周边。

因此,Suno 的出现并无法解决需求端的问题。甚至,由于让供给进一步碎片化,它可能还会导致用户的注意力被进一步稀释。

第三,长期来看,音乐产业正在走向没落,甚至不值得被颠覆。

音乐作为一种信息密度更低的模态,只能作为其他高密度模态的伴随产品而存在。音乐作为一种单独媒介存在的空间越来越小。换句话说,类似绘画,作为艺术的音乐已死。

从能量和信息的角度,可以解释为什么音乐必然走向没落。这里摘一段之前写过的文字:

在吴军的《全球科技通史》和Vaclav Smil的《能量与文明》中都提到类似的观点,即可以将人类文明的发展理解为一个能量消费逐渐增加的过程。从人均能量消耗的角度来看,公元前 10000 年的采集社会,人均年消耗能量 5-7GJ,到了 1500BC 的埃及,这个数字增长到了10-12GJ,罗马帝国早期为 18GJ,1500 年中世纪的欧洲约为22GJ,而今天所有富裕国家的年人均能量消耗量都达到了 150GJ 以上,而美国则超过了300GJ。如果从功率的角度来看,人类的进化更加夸张。从 1700 年算起,到今天增加了20000倍。可以说,人类文明的结果,就是能够在单位时间内消费更多的能量。

从信息的角度来看,也是同样的道理。人类文明的进化方向,就是让人们能够更快地消费更多的信息,换句话说,就是让信息消费的带宽更高。阅读时,人类被占用的带宽只有1M/S,听音乐的时候也不过1.4M/S,而看视频的时候,带宽可以飙升到9M/S。再换句话说,在人类日常接收信息的主要器官当中,耳朵(听觉)并不是一个主要的装置,因此带宽的天花板很低。这通过媒体文件数字化之后的size也能看得出来:1个需要1分钟阅读的文本文档也就几十k 的大小,而1分钟的WAV音频文件(无损格式)大概2M大小,而1分钟的蓝光视频文件大概是150M大小。因此,从带宽的角度来看,消费音乐显然是不划算的,闲置的带宽太多。

因此,从上世纪80、90年代到2000年左右的流行音乐风潮,某种意义上是一种假象。那是因为当时的媒体带宽条件只能支持音乐的传播和播放。尤其是在碎片时间里,人们不可能随时打开电视或录像机来看视频,能做的无非就是读读书/杂志,或者听听音乐。在当时,音乐是单位时间里能够消费最多信息量的媒介,所以也就拿到了最多的时间份额。而随着宽带的普及、移动的普及,视频成为了更好的媒介,同样是1分钟的时间,视频的信息量是音频的50倍以上,这就让音频逐渐沦为了”周边“,同时也宣告了华语音乐黄金时代的结束。这样看来,欧美音乐未来也并不会好到哪里去,反而华语音乐走在了前面,因为中国的宽带、移动的普及速度比欧美更快,也就更早见证了音乐媒介的没落。从这个角度来看,其实读书的没落也是必然,因为相比于音乐,文字的信息量可能更低。读书的好处在于杠杆效应,在阅读时如果能够通过独立思考来撬动库存信息的联动,其带来的长期收益会非常大,而这不是通过即时的带宽消耗可以计算的。

尽管音乐的黄金年代已经逝去,但音乐这种媒介形式还会存在很长的时间,因为它可以和其他媒介形式共存。换句话说,从带宽的角度来看,音乐是非独占的,你可以一边听歌一边做别的事情,比如开车、写代码等,而视频、读书都不行。这就赋予了音乐媒介一个独特的”增益“价值。它未来作为独占资源的价值会越来越小,但作为伴随资源的价值会越来越大。这也是为什么越来越多的热歌都来自于短视频、综艺、电视电影 - 因为音乐作为伴随资源可以增加这些媒介的信息量和价值。

总的来说,在供给端,由于差异化并不大,Suno 很难产生“更高质量”的音乐;在需求端,Suno 的出现无法解决用户不听音乐的需求。根本上,音乐是一个逐渐走向没落的、半死不活的独立产业,甚至不值得被颠覆。这些共同决定了,Suno 并不是什么划时代的产物,

当然,这毫不妨碍Suno 可以成为一个很好用的工具,一个非常 Personal 的表达助手。音乐已死,并不意味着创作已死、表达已死,相反,更高信息密度的艺术媒介会取而代之。我们未来会有越来越多个人创作的数字人、游戏、电影等等,而音乐作为其中不可或缺的一环,也会发挥巨大的价值。这就好比绘画已死,但视觉艺术的巅峰期才刚刚来临。
1750
Diiiii
23天前
这篇文章对 AI 陪聊产品的用户洞察比较到位:“之所以判断用户规模有限,是因为现在的C.AI类产品这种你来我往的聊天式的交互对用户来说成本确实非常高,非常消耗能量。要组织语言配合AI一起把故事推动下去,在聊天的过程中慢慢把脑海中的幻想世界搭建起来,和小说创作很像。虽然成本比纯写小说要低不少,但仍是一个耗时间耗脑力的工作,除非自己本身对幻想世界和想象中的情节有着非常强烈的渴望,或者对某个IP角色有着非常强烈的情感羁绊,才愿意付出这么多能力,去享受创作过程中的快乐。更多人还是被社会磨平了想象力,喜欢故事,但是更愿意消费故事而不是生产故事。

目前C.AI类产品处在高交互低媒介的位置,只有愿意付出高交互成本并且接受单纯文字描写的用户才会喜欢,注定了用户规模有限,未来往更广用户群泛化的路径也很清晰:降低交互成本、提升交互后收获的体验。所以,往互动游戏的方向发展、往多模态的方向发展,几乎是一张明牌。”

C.AI类产品的窘境与未来

32
Diiiii
24天前
Hugo Barra 曾经在 Meta 担任过 Oculus VR 的负责人,对 MR 产品很有发言权。他的这篇关于 Vision Pro 的长文很有启发,尤其是关于 Vision Pro 的定位和应用场景的观点 - 最值得关注的场景,一个是办公,一个是观看沉浸视频。(还有一个应该是游戏,但没有展开说。)

Hugo Barra 对办公的生产力场景进行了详细的拆解。他提到,苹果设备的办公场景分为三种,专业场景(Mac Pro / XDR 6K)、普通场景(16 英寸 MacBook Pro)和便携场景(11 英寸 iPad Pro + keyboard),设备由大到小,价格由贵到便宜,工作窗口由多到少,处理的任务能力由丰富到简单,人体工学由优异到糟糕。那么在探讨生产力替代的时候,就要仔细考虑,Vision Pro 到底能够替代上述哪个场景?

Hugo 的答案相当乐观。他认为 Vision Pro 已经准备好取代普通场景,同时经过苹果的适当优化之后(包括系统 OS、交互、配件等),在 1-2 年以内很有希望取代便携场景。“在不久的将来我们可以看到只需在背包里装上MacBook Air和Vision Pro,就能给你提供一个相当不错的工作站,并能以提高工作效率的形式提供足够的好处,以至于你可能愿意在咖啡馆、飞机上,甚至在家里的沙发上戴上几个小时的头显(当然,这种观点完全没有考虑是否物有所值)。” 当然,专业场景是不大可能被 VisionPro取代的 - “我确定Vision Pro永远不会成为两块XDR 6K显示器工作站设置的合适替代品。每台显示器32英寸,总共4000万像素,而且我的头上没有重物,这根本不是我今天或未来任何时候使用VR头显所能媲美的事情。”

相比之下,Meta 也曾经尝试过将 Quest Pro 作为生产力工具,但彻底失败了,最大的问题在于“显示分辨率(22 PPD)太低了,文本可读性很差,远远不足以解锁在VR中办公”。他认为,分辨率的提升突破了临界值之后,才终于解锁了办公场景。

然而,除了办公之外,Hugo Barra 在文中给 “用 Vision Pro看电影” 这个常用场景浇了一盆冷水。他认为根据 Meta Oculus 的经验,一开始用这种设别看电影体验很棒,但大多数人在最初的新鲜感消退后就会停止这样做。核心原因还是相比用电视和电脑观影,头显太重了不够舒服,同时导航 UI 摩擦更多。因此,VR中的2D / 3D 媒体消费并不是核心的“日常驱动”支柱,只是为其他核心支柱(如生产力或游戏)增加价值的辅助用例。

相比普通的 3D 视频,用 Vision Pro 观看沉浸式视频是更加有想象力的场景。Hugo Barra 认为 Vision Pro 特别适合用沉浸式视频来表现自然风景、野生动物、旅行和音乐等主题,但不太适合用来叙述带有人物情节和叙事的故事,比如电影等等,因为会有恐怖谷效应。相比之下,更明确的一个场景是实况体育比赛(当年Oculus Go 的一条 30 秒的 NBA VR 观赛广告引发了设备大卖)。在高分辨率VR中观看一场比赛有可能比普通的4K电视转播更好,因为它能让铁杆粉丝感觉更接近比赛。苹果已经和美国职业足球大联盟签约,会在2024年底或2025年初推出Apple Immersive Video格式和Vision Pro 的直播流。(但这需要重新建立 VR 体育直播的行业标准和商业模式,也需要硬件的革新。)

最后,Hugo Barra 认为苹果进军VR/MR行业是“对 Meta 来说最好的事情”,Vision Pro的发布是Quest VR 梦寐以求的最佳营销工具,因为苹果会通过其无与伦比的品牌、设计和营销来促使VR行业变得更好,“在VR做到人皆可买之前,首先做到人皆想要”。Meta 需要确保自己在2025年中期之前推出一款既要建立在Vision Pro创造的新体验黄金标准之上,又要在尽可能多的维度上成为一款更好产品的VR头显。

P.S. 在今天的 Stratechery Newsletter 里提到,苹果 Vision Pro的体育直播和沉浸式视频内容更新的进度比想象中更慢。苹果似乎对 Vision Pro 开发者生态的投入有些犹豫不决(至少不如 Meta 那样坚决),并且似乎在组织架构上有些混乱,并没有指定 Vision Pro 的直接负责人。

原文链接:hugo.blog
映维网的翻译:mp.weixin.qq.com
214
Diiiii
25天前
对比理想和小米的汽车设计,发现一个很有趣的区别。

理想的思路似乎先定义用户。在得到的李想产品实战课里,一上来就是“定位:怎样找准产品的用户群”,李想解释了他如何以价格为纵轴、以人生阶段为横轴,确定了“有孩子的家庭”作为理想汽车的定位,进而再去满足家庭用车场景下未被满足的需求,尤其是主驾之外坐在其他家庭成员的需求,比如用三排座椅满足三代同堂的出行需求,比如空间的规划,比如多块屏幕,等等。

而从发布会来看,小米的思路似乎更多是“对标”,整体对标 Tesla Porche, 包括外观、配置、性能,甚至是用户调研。雷军提到,”做用户调研的时候,一个特斯拉的女车主说坐在里面像烤箱一样,说夏天会不会太晒,好,我们就把防晒作为核心点去突破。“ 在发布会的整个过程中,雷军提到的用户角色包括了Tesla 车主、工程师、赛车手这些不同的人设,略有些混乱。

让我略有点诧异的是,在发布会最后,雷军主动提到,他没有仔细思考过“用户是谁”这个问题。他的原话是,“很多人问我说小米su7 是为谁造的?因为这一段时间SUV MPV都特别火,大家说你搞个轿车为谁做的?这句话问完,我真的想了好久,我回想三年前我为什么坐这辆车,我的逻辑其实挺简单的,第一,model3的用户是不是该升级了?第二,三四十岁的用户要不要体验一下最新的智能科技?还有追求有品位的时代精英,你买了个SUV把家人照顾好以后,你需不需要为自己再买一辆心仪的轿车奖励一下自己?所以,我觉得小米出行的用户就是这样的一群人,他们有品位,不甘于平庸,还在为梦想打拼,他们向往先进的科技,渴望幸福的生活,他们心中有火,眼里有光,浑身闪耀着乐观与自信的光芒。“ 这个对用户人设的定义,让我感觉还是有点模糊。

当然,扯这些都是虚的,最后还是结果说话。
239