即刻App年轻人的同好社区
下载
App内打开
KUEN
408关注281被关注1夸夸
主业是成长,副业搞AI
KUEN
4月前
最近也有类似的困惑:各种模型持续刷榜,但却在数手指之类的 case 上差强人意。或许纯文本 scaling 的边界在显形——「语言」只是人类经验的有损压缩;LLM 基于语言拟合出的「思考」不止受模态限制,也继承了人类经验的局限,使得「直觉」这类智能无从学起

木遥: 遇到了一个有趣的问题,正好落在 AI 模型的能力边界处:试证明不可能把平面分成无穷个圆的无交并。 在我尝试的所有模型里,只有 GPT 5 thinking model 成功做了出来(虽然花了点时间)。 有趣的不是这个结论,而是观察它们的思路。所有失败的模型都有个共同点:它们的思考基本上是从文字到文字的。它们会调用自己脑海中各种已有的定理和知识,然后漫无目的地试图拼凑出一个证明,但所有这些定理,不管是拓扑的还是几何的还是测度的,对它们来说都是纯粹字面意义上的陈述。Qwen 的思考过程最典型:它滔滔不绝想了很久,但很显然从头到尾它都并不真的理解它在说什么。圆也罢,开集闭集也罢,Baire 纲定理也罢,对它来说都是纯粹的概念,给人的感觉是它甚至并不真的知道「圆是圆的」。 微妙之处在于,这种「没有几何直觉的几何思考」在某些时候其实未必是一种劣势。现代数学早已挣脱了对三维现实想象的依赖,大部份数学思考本来也确实是在纯粹的概念思辨空间中进行(特别是当问题进入代数乃至范畴论的领域的时候,这时从概念到概念的思考就变成了一种必然)。有的时候,几何直觉甚至反而会成为一种束缚,特别是当思考高维空间的时候,基于低维现实的直观常常是有误导性的。在这些问题上,AI 的「盲目」反而带来了自由,使得它不必受困于视觉直觉。——当然,人类的视觉直觉可能会渗透进人类的文本语料里,在某种程度上「污染」AI,但这是另一个问题。 然而对原问题来说,因为这是一个低维问题,直觉在这里不但有用,而且能大大缩短思考搜索的难度。在这一点上,一个把圆只作为抽象概念来理解的 AI 就会有巨大的劣势,因为它无法享受到几何直觉带来的跳步。这种直觉使得人可以一眼「看出」关键的构造,而这种构造在文本层面被搜索出来是困难的。 考虑到 AI 的应用毕竟大多数情况下还是为了解决世界现实问题而不是思考高维几何,有几何直觉的 AI 会在大多数问题上显得聪明得多。于是一个现实问题是,这种直觉是只有依赖多模态的训练才能获取,还是可以通过精巧的文本训练就能实现?这有点像是 AI 领域的玛丽房间问题。这是一个经典的知识论思想实验:一个从出生就生活在黑白房间里、精通颜色物理与神经机制的科学家玛丽,当她第一次走出房间看到红色时,她是否获得了新的知识? 今天大多数 AI 领域的困难都可以归结于此。人类是自己感官的奴隶,我们听到、看到、闻到,我们体会身体激素的涨落,我们想象、困惑、愤怒,然后试图把这一切投射在文字空间里。AI 则正好相反,它们在文字里理解这一切,但最终需要努力地——有时候是徒劳地——明白,一个圆在什么意义上是圆的。

00
KUEN
4月前
25 年出现了 2 个偏离大模型主航道的研究,它们的共同点是特别契合物理世界的规则:

1. dLLM(gemini diffusion):主流 LLM 是线性的自回归模型,这意味着 LLM 在进行 "思考"(next token prediction)时只能沿着第一个方向推进,引入 CoT 也更像是通过 "采样/best of N" 来亡羊补牢。相比之下,dLLM 可以在最终生成完成前,通过 "全局 denoising" 来不停地迭代思考的逻辑。这种非线性的、可反复迭代修正的模式更接近人脑的工作方式

2. 自回归生视频模型(genie3):genie3 的工作方式是基于 "已有帧+user input" 去预测并生成下一帧,为降低误差,它会在内部维持一份随时间演化的 "世界状态"(物体/位置/相机或角色运动/遮挡等),并按 user input 推进世界。这天然对应了我们可感知的物理世界的连续性、局部因果性和路径依赖。相比之下,Veo3 diffusion 模型更偏 "一次性整段合成",状态一致性通常不如自回归来得自然

假如,我是说假如,赛博世界和物理世界存在某种映射,那未来的模型会不会演化成:
- 模拟人脑的部分用 diffusion
- 模拟世界的部分用 auto regression

甚至 diffusion auto regression 会不会在某一个时间点融合?
01
KUEN
4月前
这两天围观 Genie3 的一些感受

1)Genie3 不止在「生视频」,更像是在「造世界」。它会记住你刚刚路过的那面墙,转一圈再回去,墙上的纹理还在那里;你按一下手柄,下一帧就顺着你的动作往前推。这种「环境一致性」是自回归训练里自己长出来的。跟 LLM 预测下一个 token 一样,只不过它预测的是下一帧。说实话,有点吓人(见第 5 点)

2)以前我们聊 Sora、veo3,默认都是 diffusion 路线:先用 VAE 把视频压成潜空间,再把潜向量切成时空 patch,用 transformer 做去噪,在降噪过程中把「文字和画面」的关系学牢。它们擅长「一次性把整段视频洗出来」,质感强、镜头语言漂亮。Genie3 走的完全不是这条线。它是自回归:拿「已有帧 + user 控制输入」,去预测「下一帧」。这套目标天然很苛刻——只要前后不一致,损失马上打你脸。所以模型最省力的活法,就是在肚子里偷偷维持一份「世界状态」:有什么物体、它们在哪、相机怎么动、被遮挡没……然后再按你的动作把世界往前滚。这种能力不是显式 3D 网格给的,而是训练目标逼出来的涌现。简单粗暴,但就是有效

3)这也是为什么我更愿意把「世界模拟器」的称号给 Genie3 而不是 sora、veo3。Sora/Veo3 更像导演,一次性把片子拍好给你看;Genie3 更像游戏现场转播,你每按一下,它就得把下一秒播出来,而且不能穿帮。能玩、能改、能记住你做过什么——这才叫「在世界里」

4)我很认同下图的评价:有一天,UE5 这种游戏引擎的复杂度,会被一坨数据驱动的注意力权重吞进去,model is eating the world

5)至于「世界是一台计算机模拟出来的」这种老话题,我以前没太多感觉。看完 Genie3,我第一次有了具象的画面:我们对过去的记忆是模糊的,但过去又实打实地约束着未来;当下的一个动作,会直接改写下一步。听起来就像 Genie3 在做的事……
02
KUEN
7月前
若干年后回看,dLLM 可能才是昨晚 google 发布的最重要的模型

抛开生成速度和性能,还有一个很直观的角度:人思考的时候并不是线性的,但 LLM 是线性的而且会自回归

如果我们把模型输出的过程理解为模型“思考”的过程,那 LLM 只能沿着第一个想法思考,这明显是不合理的

dLLM 在生成完之前可以不停迭代思考的逻辑(全局denoising)

就连 reasoning LLM 显性表达出来的 CoT,对 dLLM 来说也可以蕴藏在 denoising 的过程中

dLLM 潜力巨大!
00
KUEN
8月前
泡泡玛特创始人王宁的这段话让我特别有共鸣

PM 很容易沉迷于自己脑海里的一些巧思,特别是一些偏宏观的想法。这种惯性很大程度上是因为过去开发资源有限导致的

但「idea is cheap」,落地后才会遇到各种后验问题来击碎所谓的巧思

AI 带来的最大助力,就是「通过加速产品构建来加速反馈循环」,然后在各种 loop 里迅速积累对用户、业务、商业的认知

所以,现在成为一个 doer 是特别重要的——既然构建成本低了,很多事都可以快速去试错、去获得真实反馈、去沉淀后验认知
418
KUEN
8月前
这套 workflow 的出品,连专业设计师都难以挑出毛病

其实 AI 早已在技能层面超越我们
再厉害的设计师,也不可能 10s 画出 4 张图
大力出奇迹,效率和效果都更优

但真正决定作品质感的,从来不是速度

Jeff Bezos 说过:要关注未来不变的东西
在创作中,不变的是:审美、标准和判断力

什么值得做,什么能代表你的风格与价值观——这些问题 AI 给不了答案

AI 飞速发展的今天,投资审美反而愈发重要
这是「道」和「术」的区别

KUEN: 生图流水线:whisk 发散找创意+即梦调整细节,纵享丝滑🍫

01
KUEN
8月前
生图流水线:whisk 发散找创意+即梦调整细节,纵享丝滑🍫
12
KUEN
8月前
《the second half》里有一句连作者都觉得抽象的话——language generalizes through reasoning in agents

好多文章都是直译或者理解成「语言模型的先验知识会让 agent 在实际任务中得到泛化」,都不够精准

我的理解是:语言(模型)蕴含的先验知识,需要通过 agent 在实际任务中进行推理来激活,最终才能有效地跨任务迁移并转化为真实的效用
20
KUEN
8月前
LLM 的机制决定了它是认知的放大器,而不是认知的创造者。做不到「strong opinions, weakly held」就很容易陷入回音壁

因此「品味」变得无比重要,无论是对自己、对他人、还是对 AI 输出的观点

玉伯: 最近和 Claude 等 AI 聊天,但凡有些深度的问题,就发现 AI 只是在迎合,而不是在探索。 比如我提出人活着,要么是为了赚钱,要么是为了搞乐(让自己快乐、感觉有意义)。Claude 指出,除了这两种,可能还存在第三种:受苦(比如宗教活动、家族礼仪等)。 我不认可,认为受苦也是一种搞乐,然后 AI 没反驳,立刻同意,并指出赚钱和搞乐的总结非常好。其实我内心正在犯愁:学习不是赚钱也不是搞乐。AI 不知道我其实同意他说的还有第三类。 后续又聊到,人和 AI 的区别是什么。Claude 指出:AI 没有体验力,只是工具,把输入变输出。 最后聊到,人的特殊性究竟是什么。在我的不断逼问下,Claude 有点急了,指出:人类觉得自己特殊,就是人类的自欺。 最后我这个人类和 Claude 这个 AI,愉快达成一致:人和 AI 的意义是一样的,都是过完这一生。其他都是人类最深层次的自欺。 突然感觉好无趣。实际上只是我和我在对话。AI 只是捧哏。就如很多公开表达,看似是公开表达,其实上是在公开环境下的私密表达。 并不存在交流。人只能跟自己交流。其他都是某种环境下的输入。

00
KUEN
8月前
下午教对象用 gemini 处理文书工作

她本来对 AI 挺无感的,这次直接被 deep research 震撼了——10min 刷完几百个网页直接出报告

人和 AI 在信息带宽、context window 的差距太明显,妥妥的降维打击

她以后应该不会自己动笔了🥹
00