即刻App年轻人的同好社区
下载
App内打开
木遥
41关注4k被关注6夸夸
ai.farmostwood.net
木遥
11天前
虽然不可能 work,但折腾一下也挺好的,「乱了敌人,锻炼了群众。」
03
木遥
15天前
把自己的文章印上纽约时报头版头条很困难吗?
00
木遥
15天前
好像没怎么看到有人讨论 Gemini 新出的 visual layout?

试了一下感觉非常酷啊
41
木遥
15天前
NotebookLM 还能做 poster。
我把那篇文章扔给它,几秒钟画了一张大 poster 出来。
我嫌竖版的不好看,让它做横版,又是几秒钟。

我唯一的感受就是这一切都已经变得毫无意义了,当生成如此廉价,谁还在乎呢。。。
21
木遥
15天前
把前面的文章 web.okjike.com 扔进 NoteBookLM,它直接给我生成了一个幻灯片出来

好好好,同志们。现在面临的基本矛盾是,当生成信息如此容易,你上哪去找足够多的读者来消费它们呢。 ​​​
88
木遥
15天前
另一个 Gemini Nano Banana Pro 仍然搞不定的问题是复杂的光学
比如下面这个 prompt:

画一个玻璃酒杯,里面有小半杯红酒。一个年轻女性端着酒杯凝视着红酒,酒杯的杯壁上倒映出女性的脸。

感觉需要世界模型的突破才行。
10
木遥
16天前
拓扑对 Gemini Nano Banana Pro 3 还是有点难
(有一说一我也花了一会儿才发现右边的图不对。
00
木遥
17天前
一些关于即生成即用(create-as-you-go)的时代的想法。

Gemini 3 发布的第一天,社交媒体上所有的反馈都集中在同一个方向:这东西会颠覆用户交互界面。这并不是说 Gemini 3 本身发明了一种更好的交互界面,而是说,它让生成完全依赖于具体问题和具体用户需求的即生成即用的交互成为可能。

在传统的用户体验里,工具负责生成一系列标准化组件,人脑负责把这些组件融合在脑海里生成更深入的理解。比如你要理解 DNA 的构造或者 Tesla 的设计或者房产税的施行细节,工具能给你的是各种文本表格图片文档,任何比它们更高阶的交互都因为依赖用户个性化的需求而无法标准化,因此从这些非常原始的数据中组装信息就成了一种不平凡的智力活动。整整一个中介行业(前端设计/编辑/视频制作/etc.)的工作本质上就是把这些细粒度的标准化低阶信息包装成终端用户能接受的状态。

这个中介行业有两个从本质上就没法绕过去的缺点:1. 贵。2. 它永远无法真正切合每个实际用户的需求。这种工作的交付是静态的,用户只能被动接受。出色的中介能尽可能精确地猜测到用户想要什么,但也仅限于此。

Gemini 3 发布之后,任何终端用户都可以直接对它说:给我一个关于 DNA 构造的动画教程、。然后 Gemini 就能生成一个酷炫的交互式 3D 界面,允许你自己探索 DNA 的一切。这不是一个静态的交付,你随时可以根据个人体验而不断要求它更改:讲得更细致一些,展开解释某个背景知识,给渲染出的图像换个角度,对某个难点提出疑问……最终得到的是一个完全私人定制的东西,而且基本上只有一次性的使用寿命。——当然,Gemini 允许你把生成出来的结果分享给他人,但从实际效率角度来说,别人直接从零开始制作一份自己的版本往往更省事也更有针对性。

这带来了一些关于信息流通的根本上的新工程哲学。

人类所有工程领域一直都共享着一些不言自明的原则:标准、坚固、可复用。在这一点上,软件工程师和桥梁工程师没有什么不同。如果你是个桥梁工程师,标准意味着你可以大规模生产工程预制件,坚固意味着你希望你造的桥能用很久,可复用意味着你希望你造这座桥工具和经验能够尽可能直接被拿去用来造另一座桥。这些原则如此显而易见,以至于人们不会意识到它们的存在,也不会深思它们的代价。

如果你实际上既不需要标准化,也不需要坚固,也不需要可复用,你能省下多少资源和能量用来解锁别的 feature?你能做到多少本来因为需要满足标准、坚固、可复用而无法想象的事?

这有点像是从物资匮乏时代到物资丰裕时代的观念代沟。我们都遇到过长辈对旧物的执念——他们会坚持说:好好的东西扔了干嘛?万一哪天你还用得着呢。事实上你知道,首先很难遇到这个万一,其次就算真的要用,弄明白一个旧东西怎么用的功夫你已经从淘宝上下单了一个新的并且送到了门口。你不得不痛苦地给长辈解释说,为了存放那些破烂「以备万一」所占用掉的家居面积乘以单位面积房价,足够你每天买一个新的了。

从这个视角往回看,你会发现我们曾经为了这些古代的神圣原则付出过多少代价。传统的办公软件(比如 powerpoint)异常臃肿笨重,因为各种你可能永远也用不着但也许对某个人某天有用的功能都必须一出厂就准备好,而今天的你完全可以为了你现在要做的 presentation 直接生成一个成品,包含任何当下的你需要的 feature,不用关心它能否被另一个 presentation 用上。传统的代码库里包含着精雕细琢的注释文档和复杂的引用依赖,因为模块会被层层复用,你需要大费周章地解释意图和注意事项,既不能过于简略别人无法理解,也不能过于冗长让人没耐心阅读。你需要隐藏复杂性,提供简洁接口,一旦软件出错,你需要非常精确的错误信息才能帮助人定位问题。——所有这些对 AI 都属于过度设计,杞人忧天。有连篇累牍解释怎么复用高阶接口的功夫,AI 已经读完了几千行底层代码和几百行报错信息,然后另起炉灶写了一个全新的模块出来。你甚至不太关心生成的东西有没有 bug,只要你用的过程中不要遇到 bug 就行,或者就算有,你再生成一个新的就是了。

这当然不是说软件工程不存在了,只是成本和注意力都需要颠覆式地重新分配。底层的元件和设施也许需要更坚固更有效率——大模型基础设施供应商仍然需要千方百计从石头里榨出油来最大化每片GPU的使用,AI 本身也仍然需要调用有效的渲染引擎来支持各种定制化的高级界面——但你在链条上越靠近终端用户,就越需要提醒自己用户仅仅生活在当下,你和他们每一次长尾的、浮光掠影的、昙花一现的交互本身才是你真正要交付的产品。如果你是斯科塞斯,你关心的是你的电影是否永垂不朽。如果你想制作的是霸道总裁爱上清洁工的短剧,按照斯科塞斯的方式来执行就成了自寻死路。

设想一下,如果你能够每天根据你当下的心情和需求以几乎零成本生成一套新的家具并随时无痛扔掉所有旧家具,你会怎么理解家具这个概念本身?用黄花梨木来生产日抛型家具是没有意义的。
1131
木遥
18天前
看到有人上手 Gemini 3 第一件事是做了个短剧 霸道总裁爱上做前端开发的我 绷不住了
46
木遥
20天前
我们特别善于造词的 Karpathy 老师又写了一篇文章,提出了一个有意思的分类。

他说此前的计算机技术(他称为Software 1.0)能完成的任务的特点是 specifiable,也就是说,你能用清晰的语言描述步骤。

而有了强化学习之后的计算机技术(他称为Software 2.0)能完成的任务的特点是 verifiable,也就是说,如果一项任务做的好不好是可验证的,那么它就可以被强化学习进行优化。

这一点当然也不是全新的洞见。Jason Wei 今年夏天写过一篇文章(他称为 verifier's law),讨论验证不对称性在 AI 领域的关键作用。生活里大量的任务都处在这个「解决起来不容易但验证是否解决很容易」的不对称空间里(不妨把这理解为 P/NP 不对称性的一个推广),比如证明一个定理比阅读并检查一个证明是否正确困难,画一幅有特定形状的杯子的画比检查一副画里是否有这样一个杯子困难。强化学习意味着训练人工智能解决某个任务的难易程度与该任务的可验证性成正比。可验证性越高,就越容易在新范式下实现自动化。如果任务不可验证,则只能寄希望于神经网络的泛化能力,或者通过模仿等较弱的手段来实现。

这个思考框架简单且诱人,问题是它在实践中常常有些模糊。比如写(日常意义上的)文章算不算 verifiable task?理论上说,它不像编程,是一种更不客观更软性的创造性工作。但实际上,因为对除了纯文学创作以外的大多数文章类别,训练人工智能分辨文章好坏都没那么困难,所以实际上AI 在写日常文章这件事也算是基本取代人类了。

一件事情 verifiable 通常是因为它可以沙盒化,也就是在一个可控可还原的环境里反复试验。如果想在这一波 AI 浪潮里找到价值,这是个很好的出发点:去寻找那些可以沙盒化但还没有沙盒化的事情,这通常意味着它还处在被 AI 取代的早期,有巨大的套利空间。

反过来,如果想找到短期内不会被 AI 取代的工作,这也是个很好的出发点:去寻找那些不容易 verify 的事。它们通常有这样几个特点:

- 只能在现实世界里操作,从而很难加速。比如商业/管理决策,是否成立总要执行了才知道,而执行是很慢的事情。
- 因果链条很长很难归因。比如和人建立有互信的伙伴关系,或者在用户心中建立品牌形象,这类任务需要下水磨工夫,要做对很多环节,且做完了也不太确定到底哪一步是真的管用。
- 验证过程对现实本身有不可逆的影响,比如说服某个特定的人,治疗某个特定的复杂病患。就像杀死薛定谔的猫,是死是活一锤子买卖。

当前范式的 AI 对这类工作几乎无能为力。(不幸的是,这类工作对大多数人也都更困难,毕竟很难训练 AI 通常就意味着也很难培训人类自己。)

但上面所有这些讨论有个根本的前提:这一轮人工智能始终把强化学习作为基础范式,而这一点本身是存疑的。不少领域里有迹象表明强化学习只是一个过渡性的技术。如果人们找到了绕过强化学习的窍门,那可验证性长远来看就没那么重要。

(当然那样也就意味着人类的栖身之所又变得更小了。
23