即刻App年轻人的同好社区
下载
App内打开
Cornetto
227关注229被关注1夸夸
坚信属于AI和Robotics的未来
为社会创造真实的价值
Cornetto
19天前
我家门前有两颗枣树
00
Cornetto
1月前
小猪线打卡
我属于刘姥姥进大观园了🦭
00
Cornetto
1月前
我不愿意
00
Cornetto
1月前
好久没发即刻了
最近要投什么呀

昨天一个在Qwen做videogen的帅哥想转方向去做具身了 🤨
人才的互相接盘吗
00
Cornetto
4月前
我们在寻找「模型」还是「世界」

这个选题的灵感来自《雅典学院》。如果你向古希腊的先哲们提问:“我们将在哪里寻找到世界的答案?”

柏拉图的手指向天——理念;
亚里士多德的手指向地——经验与现实。
此后三千年的哲学史,几乎都是在这两根手指之间来回摆动。

理念与摹仿、形式与质料、先验与经验、理性与感性。我在高中和大学读过数十本哲学书——其中相当一部分是在导论处永远停下来的。但我记住了一句话:抛开现代性,人类哲学三千年,都是柏拉图的注脚。

直到今天,我仍然无法彻底放下一个几乎显得过于古典的信念:我相信一切事物都存在某种“以概念为名的物自体”,也相信语言、情感、经验——乃至痛苦——原则上都是可以被建模、被表达的。

毕业后我开始从事投资工作。没有入门,更谈不上成绩,但主观上,我确实搭上了一艘速度惊人的时代飞船,开始近距离地观察人类智慧的边界如何被不断推远。当深度学习第一次真正进入我的视野时,我的第一反应并不是“智能”,而是「悲剧」如何在潜空间诞生?在那些无形的潜空间中,会不会也潜藏着如同「酒神」般汹涌的力量 —— 一种尚未被表达、被建模的生命情绪,是否也在等待被唤起?

还是和硕哥(@YY硕)在新年文章里描绘的那样:「那些美妙而又脆弱的情绪只是对两个KL divergence比较小的概率分布的采样?」

我去年下半年到今年上半年一直在思考的问题是:
AI能感受到情感吗?
如果不能,它能模仿情感吗?
如果明知它感受不到,也模仿得不好,人类会不会依然把自己的情感投射给它?

那时我在研究「AI 陪伴」,并逐渐形成了一个并不讨巧的判断:陪伴类产品并不是为所有人准备的。它需要被卖给一颗要么极其温暖、要么极其破碎的心灵。它必须筛选用户,甚至——它筛选用户的方式,必须与用户自身的情感接受的表达结构高度匹配。

一个“足够好”的陪伴产品,需要在输出端拥有足够好的表现形式。这可以是:

✨丰富的硬件构型(多自由度,或可变形态)
✨有生命感的动作逻辑(是否生成式并不重要,虽然意外大多时候更容易造就惊喜)
✨能够精准地勾起人的情感记忆

而一旦谈到记忆,就绕不开一个问题:要不要建造共同记忆?以及如何建造?如果不建造个体化的共同记忆,人类往往会退回到大众记忆进行情感投射,比如日本小男孩眼里的唐老鸭,中国小女孩眼里的艾莎公主,以及我们这一代人心中几乎无需解释的——任天堂。

也正是在这样的逻辑下,我们团队选择支持了一家从大众IP切入的「AI陪伴」公司,他们也在进一步探索交互的多元可能,而目前的落点是 PMF 相对更容易验证的可爱的幼龄“两脚兽”。不过对我而言,我只能从一个初阶成年人视角,追问自己一个更私人的问题:我需要怎样的陪伴?

于是我开始尝试大量以 chatbot 形态为核心的陪伴产品。有的内置了相当精妙的记忆机制,试图在不同情境中形成回环;有的专注于更柔软的语言风格与拟态外表,把人引入一种低防御、低对抗的心理状态。

与此同时,语音技术在一年内完成了从 demo 到产品级体验的渗透。Wispr完成融资,一些初创团队也基于voice技术找到了不错的场景,比如语音输入法、市场调研等。AI聊天总算不再是心机梗死的体验。

那时我在朋友圈写过一段笔记:

「语音作为单一模态,已经具备成为人类真实交互主入口的潜力,但这依然需要对用户情感需求进行更精细的拆解(指令型 / 情感型),以及在工程层面的深度优化(例如意图的持续性、稳定准确的说话人分离)」。

当用户状态、上下文维持与外部环境感知被系统性纳入,world modelling 的雏形就已经出现了。现在我也承认单一模态本质上是技术现状的trade off,不过已经能够一定程度上激发用户的情感了,所以我的重点就变成了:我们其实是在借助技术重新认知自己——认知自己在什么样的交互模式中、在什么样的被回应机制下,才真正感受到情感的力量」 。我进而又写下了一个很虚无的论断「语言被创造,认知经演化,体验是通往现实并改变现实的唯一路径」。

我其实更希望的是这种自我觉察能成为我们追求更优质情感关系的起点——不论对象是真实世界中的他者,还是 AI(我们暂且不谈 AI 在模型能力层面仍然面临的诸多挑战)。这些大约是我对这个主题的一些小结吧,希望明年能在voice/video乃至具身技术溢出之下见到更多有思考、有温度的独特的产品。

到这里,我又把一段探索的经历抽象成了一段文字,得到了一些结论,也算是一种建构的过程,我其实不太喜欢自己这样的思考模式,太古典了,有点形而上。但是这样的思考方式又让我在面对深度学习、具身智能等这样前沿又晦涩的主题时可以以一种盲目自信的状态去探索和追问。

所以,我好像一直在建构的路上,仍然相信理解的前提是清晰的表达。希望共享每一个模糊、闪烁的思考。我的这种“表达焦虑”正好踩中了 Rich Sutton The Bitter Lesson 中提出的那个警示(我稍微曲解了一下):

「当面对巨大未知与方向不明时,我们不应假设世界应该如何被理解」
「通用的学习与搜索机制,最终总会超越人类构造的先验与结构」

这在某种意义上,也呼应了康德始终无法彻底解决的问题:他尝试把感性世界和理性世界连接起来,但却无法解释人的认知框架从何而来?

从莎士比亚的反视觉中心主义到尼采的反理性中心主义,再到 Sutton anti-human centric approach,世界不是愈发清晰,而是愈发无法靠人类预设来解释。哲学一再试图封边,科学一再拆除边界。我仿佛看见一个世界,在理性与规模之间反复试探收束的可能性。

可如果世界本就不是封闭的,那我们该构建的,也许就不是模型,而是开放式的提问机制本身。人类最容易犯的错误,是把阶段性有效的抽象,当作长期正确的结构。而人类最自信的理解,往往正是最先被规模化优化抹平的那一部分。

我没有经历过科学家十年、二十年在“洞穴”里种科技树的孤独,但我总能从历史与他们的文字中,读到“一将功成万骨枯”的悲怆。

而现在,我终于可以回到标题讲的问题了:我们究竟是在寻找世界,还是在寻找模型?

在探索一切未知时,我们往往更希望世界是一个可被解释的模型。虽然上帝的答案总是简单的,但总被锁死在某个范畴里。一个充满不可解释表征的世界,对人类未必没有意义——但对机器呢?

前几天,我和现在世界上最火的那家公司的机器人模型团队里一位年轻 researcher 关于世界模型做了一些流,很感谢他帮我梳理了几个逻辑链:

1. 感知智能 空间智能(当下) 具身智能

2. 空间智能不指某个具体方法,而是一种范畴能力,强调对环境状态的建模与推演。World Model、VLM、VLA 等路线各提供了不同路径来构建这一能力

3. World Model 的核心结构其实非常朴素:
输入 action,输出 observation;
policy model 则相反——输入 observation,输出 action。二者一接,构成一个闭环,用以让 policy 脱离真机 roll 的限制而 scale

但读到这里,你一定发现了,现在的 World Model并不稳健,而机器人面对的又是一个开环世界且它们并不具备真正的闭环思考能力。不过,所有技术都有其阶段性的最佳应用场景。在新年的节点上,我会多找我优秀专业的朋友们并期待他们给我认真的回复。

只有这样,我才有东西可写。

这里插播一段Z老师在2025年最后一小时给我的message,很感动他在看海准备跨年的时候回答了我的问题:

「我始终觉得世界模型的愿景极具吸引力:构建一个能够准确预测行动后果的模拟器。其核心价值在于,一旦模型能够可靠地预测环境动态,智能体就可以在这个内部模型中进行无限次、零成本的试错学习,从而大幅提升数据效率和安全性。

然而,世界模型作为一个完全通用的自学习基础模型,面临一个核心挑战:“主观偏差”。这意味着当模型接收到一个会导致失败的危险动作时,它可能无法预测真实的负面后果(如碰撞),反而会“幻想”出一个不work的安全结果(如障碍物消失)。这种偏差源于训练数据不可避免的服从正态分布,大部分数据来自于安全的专家驾驶轨迹,缺乏系统性的失败案例」

那么最后,在无论是我,还是人类暂时提不出问题,也等不到答案的时刻,暂时放弃模型,拥抱世界吧!

第四分之一个世纪充满挑战的结束了!
新年快乐!

2025.12.31
Sue写于首尔飞往美国的航班上
33
Cornetto
5月前
拿着发钱的号码牌 堵了两场 总体回本

完完全全get到polymarket
10
Cornetto
6月前
新玩具就是会开心🫶
& miss 尼克狐尼克
10
Cornetto
6月前
还是不发朋友圈了
proxy
10
Cornetto
6月前
这世界上没有一款摇表器是为女性设计的吗?
00
Cornetto
7月前
偷个图

为什么北京约个人能约到1小时车程开外的地方啊
车上果然最适合补觉
00