即刻App年轻人的同好社区
下载
App内打开
Kenny_肯尼
502关注4k被关注6夸夸
AI产品经理
内容创作者和观察者
探索普通人和大模型的交互关系
Kenny_肯尼
1天前
据我观察,大厂的AI代码占比在20-30%,AI初创公司是80-90%,很显而易见的原因是,老产品的屎山代码太多,程序员自己经常都看不懂要到处问,更别提AI了。

而AI初创公司,用AI编程也不是那么简单,需要维护好代码库的上下文,比如你要删一些东西,从你的脑子里,已经删掉了,但实际上代码库还有遗留,只不过没有表现出运行状态。

而这种不干净的代码就会污染上下文,导致AI在继续写代码时,会出一些莫名其妙的问题。假如再过几年,这批新的AI产品还能继续活着,估计代码库也会非常复杂,那么到时候该如何让AI继续高效写代码呢?

猜测:

1. 模型的编程能力大幅度提升,连屎山代码都搞得定,暴力美学

2. 程序员的重点不是写代码,而是维护代码库的架构和上下文,形成一套新的人机编程协作方法

3. 人人都是产品经理,人人都是程序员

备注:AI coding 不完全等于vibe coding
22
Kenny_肯尼
3天前
发现ChatGPT的一个实用场景,基于闲鱼的商品照片,帮我判断是不是假货
62
Kenny_肯尼
4天前
今天AI届最大的新闻是豆包和中兴合作的AI手机,保密措施做得很不错,不然我就提前买中兴股票怒赚一笔。

我还没办法体验,就单纯看演示视频的话,目前豆包的这款 AI 手机,应该是市面上体验最佳的。

字节的产品能力真的强,模型能力也不弱。在其他公司待过,可能离职后觉得公司傻逼,但在字节待过的同学,都会承认,字节这家公司真的很强,战斗力很恐怖。

豆包AI手机的核心逻辑其实非常简单粗暴:读屏 + 模拟操作。它可以跨 App 帮我们完成任务,本质上是 AI “看懂”了屏幕上的内容,然后像人手一样去点击、滑动。这事儿必须得跟手机厂商合作,拿到系统级的权限,而且厉害的是,它能绕开各大 App 的协议限制。简单来说就是:豆包想操作你,微信你也拦不住。

这让我想起几年前“私域流量”最火的时候,大量灰产用群控手机搞模拟操作。但那时候是机械式的,动作重复、批量,微信一抓一个准。但豆包现在的搞法不一样,它是个性化的、随机的,更像一个真人在操作,识别难度指数级上升。

当然,这后面肯定会演变成一场“攻防战”,如果微信觉得威胁到了生态安全,肯定会有反制措施。就像之前的抖音链接在微信被封杀,这种类似的博弈可能还会换壳反复上演。

其实一年前,智谱就发过 AutoGLM,演示了点外卖、发红包。但当时效果一般,水花不大。这次豆包一出手,不得不感叹字节是真的“卷”。无论是模型能力、AI 整合能力还是产品落地能力,都打磨得非常强。

AI 手机这故事,早在 Siri 时代就有人讲过。 以前没做成,是因为模型太傻,纯靠规则;现在技术临界点到了,故事终于能落地了。
不仅是豆包,有其他的模型厂商也在跟手机厂合作,只不过还没发出来。但这里有个大问题:怎么商用落地?

看演示视频,豆包展示了很多案例。但我看下来,觉得可以分为三类,不符合MECE原则,但就这样吧:

第一类:明确但低价值的任务。 比如“帮我签到”、“领金币”。这对用户有价值,指令也清晰,但这很难撑起一款核心产品的价值。

第二类:高频但高语境的任务。 比如“帮我点外卖”、“做攻略”。这类任务最难,因为 AI 很难完全理解你的口味和当下的潜台词。大概率它点的外卖不如你自己选的香,总结的微博热点不如你自己刷得爽。

第三类:精英化的管理任务。 比如整理日程、笔记。这需求很明确,但那是少数人的需求,大部分普通人其实没那么多日程要管理,普通人上班当牛马,下班躺尸刷视频。

目前的策略应该是:先做出来,扔到市场上去跑。 看看用户到底在用什么,然后针对性地去强化、去教育,直到用户离不开。

作为产品经理,我觉得其实是挺难设计的,兼顾切入点的精准sharp,以及长期的通用泛化。回顾一下chatbot赛道,ChatGPT和豆包的最开始都是很好解决了「快问快答」的需求,快问快答对应的是过去的庞大的搜索需求,所以普遍的、高频、日常,以及对话式的交互可以泛化出更多需求。

我很期待,等更多人用AI手机后,有哪些场景会先跑出来。目前据我了解,oppo的小布是目前数据和口碑最好的手机AI助手,等我有机会去朋友手机体验体验。

为什么做AI手机?对于字节来说,增长是刻在基因里的。 豆包月活破亿了,但还不够。虽然还可以继续从抖音里薅新用户,但需要提前去找新的流量源头和更高频深度场景。手机硬件,就是那个能获取更多上下文、更多触发机会的“物理入口”。

对于手机厂商来说,这是个真空期。 像中兴这样的厂商,急需差异化突围,所以愿意做“打样”。但你像小米、苹果、华为这种有生态闭环的大厂,绝不可能把系统级的 AI 入口拱手让人,最终还是自己做,苹果是因为隐私包袱重,以及软件和硬件部门之间的斗争,微信是龙哥还没有那么全身心的投入做AI,所以两家虽然都慢,但大家都不会轻视。

所以,现在的合作更像是一次“试水温”。如果市场反应好(目前看确实不错),手机厂商们绝对会跟进,把这块肉烂在自己锅里。

字节现在资金、人才、算力溢出,做 AI 手机是个正确的尝试,未来在这三方面继续优化,会距离真正的规模化商用更近:

1. 模型能力的进化: 对图像的理解要更准,对指令的遵循更强、长而复杂的任务更稳定。

2. 个性化和主动性: AI 得像个老朋友,不用我把话说透,它就能结合之前的记忆和手机已有的context,猜到我想干嘛,甚至超出我的预期,在我说之前,就把事情给办了。

3. 基础设施的重构:现在的 AI 是在用“读屏”这种笨办法操作 App,效率其实很低。App GUI 是给人设计的,不是给 AI 设计的,尤其中国移动互联网卷出来了很多畸形的GUI,比如点不完的弹窗,找不到的叉号。 未更合理的方式,应该是 App 开放数据接口(API),让模型直接调用。就像 Anthropic MCP,或者微信想做的小程序服务生态。

谁掌握了这个“贾维斯”,谁站在用户这边,谁就掌握了未来的流量入口。当然,也可能这是错误的方向,最终还是需要一个新的硬件平台

聊聊豆包 AI 手机,可能是手机厂商不会放手的入口

1011
Kenny_肯尼
8天前
最近flux 2出来了,但其实没什么水花,大家依然在玩nano banana。曾经的flux是生图市场的佼佼者,很多AI产品酷炫效果背后都是基于flux精调或者直出。但曾经的小甜甜现在却变成了牛夫人,让人不由得唏嘘。

模型的进步趋势,一方面是单项能力不断提高,比如精细度、美感、文字生成准确度,prompt响应等;另一方面,是多项能力的组合叠加,这一点经常被忽略,但在应用侧价值更大。

GPT 4o和nano banana就是非常明显地把多个能力维度,不仅仅出图能力,变得更强,有点类似于把理解和生成统一,甚至还加上了搜索,模型越来越像一个产品,甚至越来越像一个人,这类生图模型已经远非flux可比。

这是否意味着小模型公司的机会越来越少?因为要做出如此高复杂度、多维度能力的综合性模型,对资源的要求非常高。对于runway、midjourney、flux等公司来说,未来可能会更加艰难,大厂的模型单向能力,综合能力都会超越你
31
Kenny_肯尼
9天前
如何判断是否在一个AI native的组织里?假如此刻梯子挂了,是不是工作基本要停摆了…
101
Kenny_肯尼
10天前
Ilya Sutskever说可以引入情绪作为一种价值函数,来做强化学习RL,可以提高训练效率和泛化性,因为人不是完全依赖结果的反馈进行学习的,大量会通过感觉和情绪来提前判断。

想起了字节推荐算法一直想要学“品味”,但一直没有找到对应的指标。这么多年,做了那么多专项,堆了无数资源,但依然眼睁睁看着小红书起来。
212
Kenny_肯尼
10天前
谷歌最近新发的论文 Nested Learning,甚至有人称之为 Attention Is All You Need 2.0 版本。

模型自我迭代一直是我非常感兴趣的话题,尤其做agent产品时,很多context engineering的活儿还挺烦挺枯燥挺难搞的,如果能把业务的脚手架内化到模型里,效果会有显著的提升。比如过去把lora、Ip adapter、PE优化等训到基模里,应用层就轻松很多,且效果的质量和泛化性都更好了。

作为一个应用层的产品,而非专业算法,看了之后,把自己的理解和思考写出来,期待与大家的交流,尤其来自算法同学的纠偏。

论文地址:abehrouz.github.io

Nest learning试图解决大模型应用目前面临的一个核心矛盾:静态的权重与动态的业务需求之间的割裂。如果说目前的 Transformer 架构本质上是在通过静态权重来“预测下一个 Token”,那么 Nested Learning(嵌套学习)则是在尝试构建一个能够实时自我更新的系统。

1. 架构的本质差异:静态堆叠 vs 嵌套循环

目前的 LLM(基于 Transformer)与 Nested Learning 在底层逻辑上有着显著的区别:

Transformer(当前的主流): 它的训练和推理是截然分开的。我们在训练阶段通过海量数据确定了模型的权重,一旦训练结束,这些权重就固化了。这就好比一个学生在毕业那一刻,他的知识体系就被封存了。上线后的每一次对话(Inference),模型都是在调用这份“死”的长期记忆,虽然能通过上下文窗口(Context Window)处理短期信息,但无法将其转化为长期的经验。这也是为什么模型会患有“顺行性遗忘症”——Session 一关,一切归零。

Nested Learning(新的范式): 它的核心观点是 “Architecture is an illusion”(架构即幻觉)。它不再将模型看作是层与层的简单堆叠,而是将其视为一组嵌套的优化问题。在这个视角下,架构和优化器是一体两面的。模型被设计成多个不同层级的循环,有的层级负责快速适应(类似推理),即快权重,有的层级负责慢速固化(类似训练),即慢权重,这两者在 Nested Learning 中是统一且同时进行的。

2. 仿生学原理:多频率的记忆共振

Nested Learning 之所以受到关注,是因为它在机制上更接近人脑的运作方式。大脑在处理信息时,会产生不同频率的脑波:

- 高频波(如Gamma波): 往往对应着高度集中的注意力,处理当下的、瞬时的短期记忆。

- 中低频波(如Alpha波、Delta波): 往往与记忆的整合、固化有关,负责将短期的体验沉淀为长期的认知。

Nested Learning 借鉴了这种“多时间尺度”(Multi-timescale)的机制。它将模型内部划分为不同的频率区域:

- 高频区(Fast Weights): 类似于人脑处理短期记忆的区域,能够随着当前的 Context Flow(上下文流)实时快速更新。这让模型在推理过程中就能“学会”新的东西。

- 低频区(Slow Weights): 类似于长期记忆区,更新频率极低,负责存储那些通用的、稳定的规律。

通过这种高低频的嵌套与配合,模型不再是一个机械的输入输出函数,而具备了某种程度的“生物活性”,能够在与环境交互的过程中,动态地决定哪些信息该遗忘,哪些信息该像突触生长一样被固化下来。

3. 对应用层产品的潜在影响

如果这种从“静态”到“动态”的转变能够落地,我们构建 AI 产品的方式或许会发生几个本质的变化。

第一,模型角色从“工具”转向“养成系员工”。目前的模型更像是一个标准化的工具,出厂设置决定了它的上限。而基于 Nested Learning 的模型,更像是一个新入职的员工。起初大家的基础能力(基座)差异不大,但在处理具体业务的过程中,它会持续接收反馈(正向的采纳、负向的修正)。

这种反馈不再仅仅停留在 Prompt 层面,而是会通过“快权重”实时沉淀到模型里。一段时间后,它将变成一个完全适应你业务逻辑的、独一无二的模型。壁垒将由数据规模转向“业务交互的质量”。

第二,Context Engineering 的“内化”。过去大半年,为了解决模型记性差、不懂业务的问题,我们花费大量精力做 Context Engineering(上下文工程),搭建 RAG、编写复杂的 System Prompt。这本质上是在模型外部搭建“脚手架”。

当模型具备了自我迭代能力,这些外部的脚手架将被逐步拆除,能力会被内化到模型参数中。模型不再需要你每次都重复告知“你是谁”、“你的目标是什么”,这些信息已经变成了它的直觉。

第三,从“离线训练”到“在线进化”。目前的 RL、SFT(监督微调)大多是离线的、静态的。业务变了,必须重新收集数据、重新训练、重新部署。Nested Learning 提供了一种在线持续学习的可能。模型置身于真实的数据流中,边服务边学习,这种效率上的提升,在长周期看是巨大的。

当然,Nested Learning 仍然处于理论阶段,并且其在实践中的挑战依然非常多。比如,如何保证动态权重更新不导致模型不稳定或出现过拟合问题,如何在大规模应用中高效执行这种实时更新,如何在没有大量标注数据的情况下进行有效的在线学习等。

但它提醒了我们:为了业务,一方面需要修补当下的技术缺陷(如有限上下文长度),另一方面也应关注模型演进的长期方向,看哪些是长期有价值的产品建设。

未来,我们作为产品,核心工作可能不再是写 Prompt,而是为这个能够自我进化的智能体定义清晰的目标(Goal),并构建一个能够提供高质量反馈的闭环环境。毕竟,当模型能够自我学习时,决定它长成什么样子的,是它所处环境的反馈机制。

有人把论文喂给nano banana,生成了这张图,非常精准,我自己试过来,没这么好看
428
Kenny_肯尼
15天前
今天我这个文科生且零代码基础的产品经理,用 Gemini 3 Vibe Coding,体验非常丝滑。一句话生成极具美感的可交互官网,一个小时做出mac端的wisper flow语音输入法。

刚开始,我是在 Google AI Studio 里直接生成网页。大家应该都知道,Gemini 3 在前端审美上有了极大的提升。生成的一些网页,动效细腻到连前端朋友看了都觉得厉害,说这些效果如果人工写要费很大劲。更关键的是,它的“理解力”极强:

1. 一次成型: 第一版生成的质量就很高。

2. 局部微调精准: 以前需要反复解释、甚至解释不清的问题,现在它一听就懂,响应基本到位。

当然它真的就是手搓网页,大力出奇迹,不像正经程序员会做一些可复用的模块化组件控件

Claude code那种经典的“蓝紫色程序员配色”官网不见了,取而代之的是真正好看甚至高级的网页。

这给了我极大的信心——既然网页能做得这么好,我干脆挑战一下,做一个 Mac 端软件吧?

于是我打开了 AntiGravity,切换到 Agent 模式,决定做一个叫 "Whisper Flow" 的工具,因为我平时语音输入比较多。

整个过程就像在和一个懂技术的老友聊天:

1. 需求描述: 我只用几句话描述了我想做个什么样的录音转录工具。

2. 自动规划: 它立刻开始列 To-Do List,大纲清晰。

3. 白话报告: 在过程中会生成一个 Walkthrough Markdown 文件。它用大白话向我汇报:它在干什么、做了什么。

我不懂代码,但我读得懂它的“报告”。 这让我能基于报告内容,继续跟它对话推进。

在开发过程中,我完全是在基于“体验”下达指令,而不是纠结代码:

1. UI 优化: 刚开始录音条是个红色的长条,特别丑。我说:“颜色好看点,要有声纹。”——它立马改成了带有动态声纹的精致样式。

2. 功能扩展: 我让它接入主流 API(如 ElevenLabs, OpenAI),它直接列好了配置项。

3. 测试闭环: 输入参数后发现不仅能用,但我担心 API Key 有效性。于是我让它在设置页加个 "Test" 按钮,点一下就能验证 API 是否通畅。它也直接照做了。

当我最终按下 Fn 键,软件开始录音并完美转录时,看到那个蓝色的声音波纹条出现并且律动,那种感觉真的妙不可言,其实就不到一小时搞定。

现在只是纯粹的copy一个超低配版wisper flow,但接下来我可以做更加自定义的能力了。

做软件和做网页真的很不一样,它释放的应用空间大太多了。这次用 AntiGravity 配合 Gemini 3,体验比我之前用 Cursor 要好非常多。我是在和人对话,而不是把大量时间花在 Debug 上。

真心推荐: 无论是产品经理还是设计师,大家都去试试。把你脑海里封存许久的想法拿出来,哪怕做出来的东西刚开始丑一点、功能简陋点也没关系。

临界点已来: 我相信大模型的 Coding 能力正在逼近一个临界点。我们不再只是做演示用的 Demo,而是真的能做出完整度高、可用的小产品。

哪怕工程不稳定,遇到问题,直接让它再改就是了。

PS: 你现在看到的这段文字,其实就是用我今天刚做出来的这个软件,通过语音转录生成的,然后Gemini 3改写的
812
Kenny_肯尼
16天前
昨晚到现在,Gemini 3刷屏了社媒和朋友圈,我看到最亮眼的打法是Youware,提前两个月把gemini3.com域名买下来。昨晚Gemini3发布,有大量的用户在谷歌里搜Gemini3会打开这个网站,于是给Youware带来了大量的免费流量。

真的太妙了,这是真正的AI增长黑客,懂模型的发展趋势,从产品、增长各个环节来撬动模型的红利杠杆。

之前我提过,模型首发就是流量红利,但我只做到了最快时间接入新模型,产品框架上最大化释放模型的能力,给用户限免使用。但我没想到还可以通过买域名的方式做增长,路子很野,但很有效,而且是对上面这句话的更加深入的理解。

佩服Youware团队,虽然偏大厂背景,但是已经不再循规蹈矩地做事。

补充一个信息,gemini.com在2015年就被Winklevoss 兄弟的加密货币交易所买了,谷歌的Gemini模型是2023年底发布,迫于无奈,Google 只能用gemini.google.com这个子域名,今年的Gemini流量大增,这个加密货币真的躺赚了好多免费流量
2025
Kenny_肯尼
17天前
一夜之间Gemini 3 刷屏朋友圈,上一次刷屏的应该还是nano banana,不过这次是AI圈互联网圈内刷屏,上次是破圈刷屏。

人类的日常生活,AI最大的两个大众应用,一个是快问快答,另一个是把我图片变好看。
21