即刻App年轻人的同好社区
下载
App内打开
dexteryy
69关注912被关注1夸夸
Web平台/SDK@PICO。Web/XR/元宇宙/AI/Web3/游戏开发者。用软件技术超越生物物理的局限。游戏玩家,投资者,热爱奇幻科幻
dexteryy
11:38
在W3C中国这篇回顾《WebSpatial API —— 在多模态AI设备上对HTML/CSS和PWA做空间化UI增强》里用中文概括了 WebSpatial 针对的三大问题、解决方案的三大支柱、目前实践中的五大类7个API提案、在当下满足真实项目需求的开源SDK、以及国内外的平台支持情况和标准化进展:mp.weixin.qq.com
完整内容见文中的幻灯片在线版
00
dexteryy
2天前
Bun实际上是一个命令行中的App Runtime,类似无UI模块的浏览器引擎(因为命令行终端里的UI都是字符组成,可以直接靠JS代码输出),加上主流JS应用运行和开发必须的要素(以前被视作工具链)。
其实跟WebSpatial最终要解决的问题一样,相当于收购了一个在CLI终端这个「GUI 应用运行环境」中按需运行动态应用的运行时,有利于 agent 在交互过程中按需动态生成应用或UI的代码,而且相对融入规模最大的开发者生态

下图幻灯片全文见m.okjike.com
00
dexteryy
14天前
Benedict Evans最新的这几页slides也许能帮更多人理解ChatGPT的性质和OpenAI是家做什么的公司

目前最大的泡沫其实是「AI泡沫」这种说法本身(m.okjike.com),其主要来源于很多人误解了什么是「AI应用」(以为只是Lemonade这种),不了解AI需求的性质和规模,没认识到OpenAI本身才是最大的AI应用公司

「AI应用」 的规模,首先来源于Agentic AI+Physical AI带来的新平台和新应用范式(新一代浏览器/操作系统/个人计算设备+去工具化应用/Agent2Agent/Agentic Web/机器人),然后才是劳动力替代,最后才是在垂直应用/企业流程中落地采纳

以「AI编程」为例,最大的应用场景在上述第一级里面,用户根本不知道自己在用AI编程,而面向专业软件开发的coding agent位于第二级,像Cursor这样的产品算第三级
01
dexteryy
25天前
今天在 Web 标准组织年度大会上用的幻灯片内容多达百页,图文齐全,相当于一份完整报告,而且是用 W3C 官方幻灯片制作工具 b6plus.js 做的,就是一个 HTML,Web 标准含量和可访问性爆表,没参加 zoom 会议的同学可以直接看这个 URL:tpac2025.webspatial.dev

P.S. 一大早参加这个会的人比预想的多,有些人还有 wiki 词条😳(图4)
00
dexteryy
1月前
补充下注意力和主动性的比较:

互联网的终极瓶颈是注意力,但互联网泡沫破灭的时候还远没到注意力拖后腿的阶段,纯粹就是因为光纤技术变革,带宽供应暴涨,这时应用侧的消费需求没有以相同速度暴涨是很正常的(还没有同等程度的消费技术变革,比如Web2.0、智能手机)

AI的短期瓶颈是电力,长期瓶颈是主动性,注意力则会丧失过去的影响力——过去注意力稀缺是因为互联网提供的本质上都是工具,使用工具要占用用户的大量注意力(包括掌握工具的认知负担),互联网提供的信息(比如链接、搜索结果、群聊、短视频信息流)本质上也只是获得信息的工具,用户需要付出很多注意力(比如刷群聊记录)才能获得信息本身。AI时代的Agentic Web提供的不是工具,而是直接解决问题、提供结果,彻底释放注意力

在AGI/ASI诞生之前,主动性几乎是人类仅有的不可取代的能力/价值,AI不会饿不会渴没有喜怒哀乐没有文化需求和意义需求,因此最根源的需求、最初的主动性,只有人类能供应(AI Agent的自主行动能力不属于这里说的「主动性」)。除了生存、繁衍这类低层次需求,大部分需求和主动性一直以来都是少数人创造的,包括为其他多数人制定系统框架、价值标准,让他们被动产生需求。所以即使AI没有主动性,也不要小看少数人的主动性能撑起多高的AI capex

dexteryy: 在群里多次做过AI大基建/AI capex和2000年宽带大基建/telecom capex(乃至更早的铁路、通信、电力大基建)的对比,在这里也发下: 当年电信资本开支断崖下降,原因主要是应用没跟上和技术变革(密集波分复用技术导致光纤容量爆炸式增长) 互联网基建解决人口之间的连接问题,而AI基建解决的是人口问题本身——如果有新技术让相同基建投入的算力产出提升几十上百倍(像当年的光纤技术进步一样,比如量子计算),也不会降低AI基建投入的规模,因为: 互联互通是有天花板的,把该连的都连上,带宽足够用,就不需要更多支出了,如果用1/10的投入就能全连上,泡沫就破了。而且在智能手机革命之前,互联网的连接需求(都是固定位置上网)和带宽需求(视频内容没有大量生产)的天花板更低,更容易泡沫化 加密货币储备和挖矿供应的更多 token 对应的是更多「共识」,AI工厂/数据中心供应的更多 token 对应的是更多「智力」(=劳动力/人口红利),这两种产出都是人类社会的瓶颈,且自带生产力,都不嫌多,有多少就可以用掉多少 另一方面,互联网基建是供给侧驱动,AI基建是消费侧驱动,AI 算力始终不够用 如今说到应用,很多人想到的是移动互联网里原生应用的形态,这些应用(特别是超级应用)确实也在积极引入 AI 能力,甚至把主界面换成 AI Agent 对话界面 但要让应用端跟上AI资本开支,实际上不需要指望这些应用,仅凭ChatGPT/豆包们的一己之力足矣 因为 AI 时代的另一个变化是,桌面时代的唯一超级应用——「浏览器」,在 AI 时代又要一统天下了,会大幅减少超级应用的数量(不像移动时代用户同时使用多个垂直封闭的超级应用) 这种「浏览器」不是传统的基于地址栏的那种,而是之前说过的「Agentic Web 浏览器」,以 ChatGPT/豆包这种应用为基础,这些新一代超级应用对「免安装、按需使用、细粒度使用、用完即抛/先用后装」的第三方应用形态的需求,比小程序时代更强,且对开放性、标准化同样有强需求 不用担心美团们不融入这种开放标准 Agentic Web,因为它们如果隔离、死守,就会有做「开放版美团」的 startup 冒出来(不一定是没钱没势的小厂,很可能是「抖音本地生活」这种),能被 ChatGPT/豆包们作为Tool或A2A中的垂直Agent自动使用,到时候用户会用哪家「美团」更多呢——用户会更愿意每次要点外卖都找到美团应用、点进去、跟美团 AI 说话,还是更愿意直接跟自己的「浏览器」(ChatGPT/豆包)说话、直接跟自己个人计算设备上的全局 AI 说话 所以现在相当于还是 2000 年前浏览器争霸、缺乏宽带基础设施、用户规模效应在早期、很多软件还在用 Dephi 开发(还在用 C/S 架构,没迁移到 B/S 架构)的时代 > 用户规模效应 = 来自通用 AI Agent 客户端(含多模态可穿戴个人计算设备上的OS全局AI)的互联网流量、分发和变现生态 在那个年代投资 Amazon 和 Borland,不如投资思科(对应现在的英伟达,当时堪称「世界之王」,市值第一)和微软(对应现在的OpenAI) 甚至即使像思科那样被炒出泡沫,如果 95 年买入思科并长期持有: 99 年底纳指开始剧烈震动前,年化收益是 95%。 2000 年 3 月纳指见顶时,年化收益 99%。 2000 年 3 月下旬还有一些局部反弹,这时的年化收益是 104%。 如果硬要说AI 大基建里有没有类似互联网大基建中「带宽」的因素,能算的上的只有 Andrej Karpathy 说的「主动性」(Agency)——AI真正的使用瓶颈是人类的主动性有限(或者说有主动性的人类有限),就好像现在的GPT-5/豆包已经够强大了,很多人还是用的少。恐怕只有达成AGI/ASI之后,AI自身首次具备了一定「主动性」,才能突破这个瓶颈

05
dexteryy
1月前
在群里多次做过AI大基建/AI capex和2000年宽带大基建/telecom capex(乃至更早的铁路、通信、电力大基建)的对比,在这里也发下:

当年电信资本开支断崖下降,原因主要是应用没跟上和技术变革(密集波分复用技术导致光纤容量爆炸式增长)

互联网基建解决人口之间的连接问题,而AI基建解决的是人口问题本身——如果有新技术让相同基建投入的算力产出提升几十上百倍(像当年的光纤技术进步一样,比如量子计算),也不会降低AI基建投入的规模,因为:

互联互通是有天花板的,把该连的都连上,带宽足够用,就不需要更多支出了,如果用1/10的投入就能全连上,泡沫就破了。而且在智能手机革命之前,互联网的连接需求(都是固定位置上网)和带宽需求(视频内容没有大量生产)的天花板更低,更容易泡沫化

加密货币储备和挖矿供应的更多 token 对应的是更多「共识」,AI工厂/数据中心供应的更多 token 对应的是更多「智力」(=劳动力/人口红利),这两种产出都是人类社会的瓶颈,且自带生产力,都不嫌多,有多少就可以用掉多少

另一方面,互联网基建是供给侧驱动,AI基建是消费侧驱动,AI 算力始终不够用

如今说到应用,很多人想到的是移动互联网里原生应用的形态,这些应用(特别是超级应用)确实也在积极引入 AI 能力,甚至把主界面换成 AI Agent 对话界面

但要让应用端跟上AI资本开支,实际上不需要指望这些应用,仅凭ChatGPT/豆包们的一己之力足矣

因为 AI 时代的另一个变化是,桌面时代的唯一超级应用——「浏览器」,在 AI 时代又要一统天下了,会大幅减少超级应用的数量(不像移动时代用户同时使用多个垂直封闭的超级应用)

这种「浏览器」不是传统的基于地址栏的那种,而是之前说过的「Agentic Web 浏览器」,以 ChatGPT/豆包这种应用为基础,这些新一代超级应用对「免安装、按需使用、细粒度使用、用完即抛/先用后装」的第三方应用形态的需求,比小程序时代更强,且对开放性、标准化同样有强需求

不用担心美团们不融入这种开放标准 Agentic Web,因为它们如果隔离、死守,就会有做「开放版美团」的 startup 冒出来(不一定是没钱没势的小厂,很可能是「抖音本地生活」这种),能被 ChatGPT/豆包们作为Tool或A2A中的垂直Agent自动使用,到时候用户会用哪家「美团」更多呢——用户会更愿意每次要点外卖都找到美团应用、点进去、跟美团 AI 说话,还是更愿意直接跟自己的「浏览器」(ChatGPT/豆包)说话、直接跟自己个人计算设备上的全局 AI 说话

所以现在相当于还是 2000 年前浏览器争霸、缺乏宽带基础设施、用户规模效应在早期、很多软件还在用 Dephi 开发(还在用 C/S 架构,没迁移到 B/S 架构)的时代

> 用户规模效应 = 来自通用 AI Agent 客户端(含多模态可穿戴个人计算设备上的OS全局AI)的互联网流量、分发和变现生态

在那个年代投资 Amazon Borland,不如投资思科(对应现在的英伟达,当时堪称「世界之王」,市值第一)和微软(对应现在的OpenAI)

甚至即使像思科那样被炒出泡沫,如果 95 年买入思科并长期持有:
99 年底纳指开始剧烈震动前,年化收益是 95%。
2000 3 月纳指见顶时,年化收益 99%。
2000 3 月下旬还有一些局部反弹,这时的年化收益是 104%。

如果硬要说AI 大基建里有没有类似互联网大基建中「带宽」的因素,能算的上的只有 Andrej Karpathy 说的「主动性」(Agency)——AI真正的使用瓶颈是人类的主动性有限(或者说有主动性的人类有限),就好像现在的GPT-5/豆包已经够强大了,很多人还是用的少。恐怕只有达成AGI/ASI之后,AI自身首次具备了一定「主动性」,才能突破这个瓶颈
14
dexteryy
1月前
ChatGPT Atlas Agent Mode 能力测试中实现了自举
11
dexteryy
2月前
ChatGPT Atlas跟豆包相比有一个看似细节但意义重大的差别:

AI对话信息流中的网页链接,不是在新标签页打开,而是在当前标签页内像Canvas一样展开(同时AI对话会折叠成当前标签页内的右侧栏)。发起新AI对话的方式也不像豆包那样在一个类似插件主屏的专用固定标签页里新建对话,而是直接新建标签页, AI对话界面就是每个标签页的起始状态——在标签页中间的输入框中,可以自然语言对话交互,也可以关键词搜索,或直接输入URL

也就是说,Atlas 不是把 ChatGPT 功能像插件那样做到传统浏览器里,而是把传统浏览器功能做到了 ChatGPT 桌面应用里,ChatGPT App 本身作为新一代浏览器真正具备了完整功能

在这种「Agentic Web 浏览器」里:

- 每个「网页」(标签页)默认都是 AI Agent 的对话信息流界面,由 ChatGPT 这样的通用 AI Agent 作为用户上网的「User Agent」,跟互联网上支持 A2A/ANP 协议的其他 AI Agent(包括含 AI Agent 对话界面的网站)、独立 MCP Server 或传统网站(可能内含 WebMCP 等协议)打交道

- 普通用户不直接跟上述这些新一代互联网里的「底层技术细节」打交道(就好像普通用户以前也不直接跟 HTML/CSS/JS/JSON 打交道),而是只跟自己的「User Agent / 通用 AI Agent」(比如 ChatGPT)打交道

- 在这种「User Agent」(新一代浏览器)的界面里,基于 URL 的 Web 内容不是「网页」(标签页)本身,而是按需「内嵌」在 AI Agent 对话信息流界面中的内容——目前有两种形态,一种是像之前发布的「App in ChatGPT」功能那样,是嵌在对话信息流和 MCP 交互(类似 MCP-UI)中的 Web 卡片,另一种是这次发布的这种类似「Canvas」、会展开占据当前标签页的形态

之前说过 ChatGPT Pulse 同样具备「Agentic Web 浏览器」的特征:m.okjike.com
01
dexteryy
2月前
EVA虽然用基督教概念和意象,其实就是个跟异形普罗米修斯、战锤40K类似的神一般外星创世文明遗迹和人类想成为神的故事,引进时要避开宗教用词,本来走科幻风就行,用不着低幼化
「核化」这个说法,原文是「コア化」,英文翻译是core-conversion/ification,中文翻译成「核心化」更能避免歧义,但官翻可能就是想往核战这类有东升西降意象的现实话题引导…

其实「新世纪福音战士」这个译名也不对,「Neon Genesis」是「新创世/新起源」

更讽刺的是,负责审查的好像是最早推广EVA的那代人(《梦幻总动员》)
00
dexteryy
2月前
老黄这个「Agentic AI」和「Physical AI」的分法/称呼挺好的,相当于我之前说的「服务器端AI」和「客户端AI」,但更突出这两种智能的不同定位——

服务器端的「Agentic AI」侧重主动「思考」,提供是「大脑级」的、「独立」的劳动力

客户端的「Physical AI」无论装在机器人里还是戴在人头上,都侧重对物理世界的直觉理解和下意识反应(实时翻译本质上也是不需思考的下意识反应),是「小脑级」的、「被动」的,它本身不是「独立」的劳动力,而是一种肉身躯壳或感官增强,让附身进去的云端AI(Agentic AI)或它附着的人类(多模态可穿戴个人计算设备的用户)成为更强大的劳动力

Agentic AI + Physical AI Embodied AI,才是能主动直接影响物理世界的 AI 劳动力

Physical AI 的重点在于多模态和世界模型

Google、xAI、Meta、字节这几家是最重视世界模型和多模态的,其中除了 xAI 是为了搞 3A 游戏和人形机器人(特斯拉 Optimus),其他几家也都有下一代个人计算设备业务

宇树这种似乎只能算做脑干和神经系统的

智驾场景的 Physical AI,还有两个重点是端到端和人类数据:

目前国内的「高端智驾」已经从以前的激光雷达+高精地图+人工编程的非泛化 L4,发展到特斯拉路线的、基于「一段式端到端」的泛化 L2,比如地平线 HSD、Momenta R6、华为 ADS 4,不过好像都是多传感器数据在神经网络内部搞鸟瞰空间/体素占据空间的显式表征,输出的是鸟瞰轨迹,而不像特斯拉 FSD 那样直接输出动作(最终驾驶指令),训练也更多靠基于模拟物理环境的强化学习,而不像特斯拉那样基于人类数据(有飞轮,有规模效应,能受益于 Supervised self-driving)

其中 Momenta 的人类数据比较多,把多传感器作为可选添加而不是必须,感觉是在向特斯拉 FSD 靠拢,长期会有优势

特斯拉的车端模型没有LLM就已经达到4B规模,体现出在训练时学到了隐式世界模型和大量几何/拓扑表征

而国内厂商即使用 VLA 模型(有 LLM)都没这么大,可能说明缺乏对物理世界的直接理解
04