歸藏的个人主页

即刻App年轻人的同好社区

下载

歸藏

565关注26k被关注50夸夸

产品设计师、模型设计师、不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。

歸藏

1天前

阿里昨天发布了 Qwen 3.6 Plus 模型

重点是 Agent 和编码能力有非常大的提升！

最近也是很高产：先是 3.5 Omni、万相2.7、然后就是Qwen 3.6 Plus，而且好像马上 Max 也要发布。

在关于开发和 Agent 的一些测评上，现在 3.6 Plus 的模型相较于 3.5 有显著的提升。

Qwen 3.6 Plus 在图像和文件理解上的能力也获得了加强。

比如在以下方面的表现都非常好：数学图像识别体验、通用的 VQA 真实世界问答、OCR 能力。这也是 Qwen 之前比较强的地方。

更强的是，这次默认支持了 100 万上下文。最长输出接近 991K，输入是 64K。

100 万上下文的表现还是很顶的。在开发体验上，比原来的 256 要强非常多。

价格上，Qwen 3.6 Plus 的输入是 2 元 / 百万 Token，输出是 12 元 / 百万 Token。

此外，有些工具（比如网页抽取等）目前还是限时免费的。

现在已经在百炼上线了。后面那个阿里系的qoder、悟空啊都会上，希望他们能快点上一下 code plan 吧。

如果不太确定质量的话，也可以去 OpenRouter 那边免费体验一下，看看效果

10 11

歸藏

1天前

小米也推出了 MIMO 的 Code Plan

最便宜的 39 每月，最贵套餐 659 每月

统一 Credit 点数体系，没有 5 小时限额这种设置

CodePilot 0.45.1 版本将会支持

17 53

歸藏

1天前

今天下午 2:00 到 4:00，在腾讯研究院这边直播

35 40

歸藏

1天前

Karpathy 分享了他如何构建本地的 AI 知识库，跟我用的方法也很相似。

都是用的 Obsidian，纯本地 MD，然后用一些反向链接、索引的方式把它们连起来。

他构建了一个用大语言模型驱动的个人 Wiki 知识库，然后把原始资料都丢进一个叫 RAW 的目录。

然后让大语言模型把这些原始资料编译成一个 Markdown Wiki，实现以下功能：自动创建摘要、创建索引、创建概念条目、添加相互链接、生成可视化等等。

我是在内容收集的时候就已经做好了，用的是 Obsidian 的那个剪藏插件。
在收集内容的时候，AI 就会自动进行以下处理：打标签、自动总结、翻译、创建摘要，目前就是还没有反向链接。

然后它的 Wiki 构建好以后，就可以在这个 Wiki 上提问，确保数据来源的可置信度。

比如说大语言模型会自己查索引、读相关的文档，写出回答或者报告，不只是在网页上搜。这样的话，它获取的信息基本上都是跟你相关的。

然后它的输出也尽量不是一句话，而是新的文件、新的可视化网页或者是 PPT，然后再回归到知识库里，让知识库越用越厚。

但这个会造成一个问题，就是 Obsidian 的作者也说了，这会污染知识库。所以最好把可靠性来源和 AI 生成的东西分开放。

还有一个比较好的点是，它会让大模型对 Wiki 做健康度检查。比如：找一些自相矛盾的地方、补发一些缺失的信息、发现一些新的关联、提高一致性。

其实现在很多人都是这样做的，我也把这套理念放到了 CodePilot 里。

关于助理文件夹的选择，我一般建议使用 Obsidian 文件夹。

如果你有自己的 Obsidian 文件夹，进去以后 AI 就会直接获取你所有的上下文和知识。

这样一来，你直接就能获得一个拥有完整记忆的 AI 助理。

如果你不知道怎么实践的话，推荐用 Codepilot 的助理试试。

把你的 Obsidian 文件夹放进去，让它帮你整理，同时让它把这些原则写到 Claude.md 里面。

详情：x.com/op7418/status/2039898050697839041

46 329

歸藏

1天前

谷歌昨天发布了 Gemma 4，这次非常牛逼！
专门用来在本地设备上跑 agent ，还支持多模态。

四个参数大小：
E2B：主打手机 / IoT / 边缘设备。
E4B：为移动端 + Jetson / 树莓派设计。
26B MoE：单次激活 3.8B，有效参数很小，主打高 TPS、低延迟。
31B Dense：全密集 31B，主打桌面工作站 / 单卡 H100 等。

这次他们把 Agency Workflows 的支持作为第一优先级：原生支持 Function Call、JSON 和结构化输出、System Instruction。

更强的是这玩意还是原生多模态模型，支持：图像和视频理解，语音转文本，可以做本地语音助手。

而且它们这次是真正的 Apache 2.0 开源，允许商用、再分发和内嵌产品，以及私有部署，没有额外条款。

谷歌还发布了一个安卓应用，来体验他们这次新发布的 Gemma 4 模型。

我用我现在的小米 17 Ultra 试了一下，在用这个 E4B 模型的时候，推理速度非常快。

而且这个 App 现在还内置了一个 Skills 的体验区域，你可以自己去让它调用工具编写和试用 Skills。

可以在 Google Play 搜索 Google AI Edge Gallery 下载使用。

详情：blog.google

18 36

歸藏

1天前

虽然出去玩了 10 天，但是效率还变高了，每天1.3 个版本

歸藏: 3 月 Codepilot 数据，下载量猛增

10 00

歸藏

2天前

3 月 Codepilot 数据，下载量猛增

11 42

歸藏

2天前

刚发现 TRAE 发布了独立的 SOLO 客户端。

而且现在有网页端和 PC 端两个了，你可以根据自己的需求选择。

内置的 Skills 市场可以选择适合自己的 Skills，每个 Skills 都有对应的介绍还有案例。当然你也可以创建自己的 Skills。

Solo 客户端里面有两个模式，点击左上角切换，名字很清楚：

Code 模式
一般是用来写代码的，涉及到开发的一些工程、任务，可以用这个模式。

MTC模式
主要是针对互联网工作中的非程序员群体（比如设计师、产品经理等），帮大家写文档、整理信息、搜集信息。

Solo 客户端右边的这个侧边栏比较有意思，里面包含了他所有的上下文参考信息，还有他生成的一些文档、PPT、网页等产物。

此外还有复杂任务，比如当你开启了计划模式，侧边栏会显示待办项目哪些任务还没有完成。

比如说我这里用它的 MTC 模式，让它检索我的 GitHub 项目中近期的所有 Issues。

然后，它自然地为每个 Issue 分了类，并大致介绍了每个的问题。

我又让他去查看里边的内容和信息，找到置信度高的、以及可以帮我修复问题的这些 Issues（也就是用户反馈）。

他自己制定了“置信度高”和“可修复性高”这种交叉的标准，定好标准后，就开始筛选这些对应的 Issues 了。

筛选得非常细，还分了“高执行度、高可修复性”以及“高执行度、中可修复性”这种交叉的分类体系，我看完以后就非常清晰了。

我还让他写了一个网页看板，去对他刚才获取到的用户反馈进行分类。他写得也很好，预览后可以非常清晰地看到：P0 、P1 、P2 的问题。

每个问题的执行度、可修复性以及问题详情都非常清楚。

现在好像还是内测阶段，免费使用，可以去试试

22 67

歸藏

3天前

CodePilot 宠物助理上线！

完成度比 Claude Code 高多了！

藏师傅想用这个东西引导你去构建自己的 Agent 工作流程，所以它是可成长的

写了篇文章，解释了一下为什么这么做：mp.weixin.qq.com

聊聊我做了什么，以及为什么 Agent 产品迟早都要走上游戏化👇

======

问题出在哪

2026 年的 Agent 已经很强了。能连续工作几小时，能连外部服务，能记住你是谁，你不在的时候还能主动干活。

但你跟一个普通用户说"配置 MCP，写 Skills，注册 CLI，维护 Memory"，他大概率关掉窗口回去用 ChatGPT 了。

AI 能做多少事取决于两样东西：手上有什么工具，知道关于你的多少信息。工具得有人装，信息得有人喂。用户不会主动做这些，不是懒，是不知道该做什么、做了有什么好处。

Memory 在后台默默变大，用户感知不到。CLI 装了五个，用户不知道 Agent 变强了多少。价值在涨，但用户看不见。

------

从一颗蛋开始

CodePilot 的解法是 Buddy 系统。

用户第一次打开，看到的不是功能列表，是一颗蛋。点一下，蛋碎了，一只 Buddy 蹦出来。可能是猫、企鹅、龙，也可能是章鱼。16 种物种，随机分配。

为什么用扭蛋不让用户选？80 种组合（16 物种 × 5 稀有度），让用户选会直接选择焦虑。扭蛋天然带叙事价值——"我开出了一只传说级的龙"比"我选了一条龙"有意思得多。

------

稀有度不是皮肤，真的影响能力

5 级稀有度：普通、非凡、稀有、史诗、传说。出率 60%、25%、10%、4%、1%。

大部分宠物系统的稀有度只影响外观。CodePilot 不一样，稀有度直接影响 Agent 的工作能力。

普通 Buddy 每 3 轮对话提取一次记忆，史诗和传说 Buddy 每 2 轮就提取一次。同样用一个月，传说级比普通级多出将近 50% 的上下文量。上下文多了，Agent 处理你的问题就更准。

稀有度还影响人格。普通 Buddy 只在一个维度上有性格加成，传说级全维度拉满，回复风格和决策倾向都不一样。

------

进化系统

Buddy 会从普通一路进化到传说。靠三个数字：记忆数量、活跃天数、对话次数。

从普通到非凡：7 天 + 10 条记忆 + 20 次对话。到传说级：90 天 + 100 条记忆 + 200 次对话。

成长曲线参考了宝可梦的经验系统，前期升得快给正反馈，中期平稳，后期要真投入。

三个指标一起看是故意的。只看对话次数，水聊天就能升；只看天数，挂机就行。三项同时达标，才说明你真的在用 Agent 干活。

------

心跳系统

很多宠物系统的心跳逻辑是"回来喂我，不然我饿死"。拿负面情绪绑架用户。

CodePilot 反过来。你不在的时候，Buddy 自动帮你干活：整理记忆文件、跑到期的定时任务、准备一份简报。

你回来打开 CodePilot，Buddy 已经帮你准备好了："今天有 3 封重要邮件，周刊素材收集到了 7 条，下午 2 点有健身。"

不是"你的宠物好饿"，是"你的宠物帮你把活干了"。

------

空间存在感

CLI 的宠物只在你执行命令时出现，说白了是个 XP 条换皮。

CodePilot 的 Buddy 同时出现在侧栏、看板、聊天窗口、系统通知、顶栏。你不用执行命令才能看到它，它就在那里。

桌面端能做到"一直在"，CLI 做不到。这种持续的存在感改变的是你和工具的关系——不是在用一个软件，是在跟一个伙伴一起工作。

======

为什么这么设计

------

隐性教学

马里奥第一关不会弹教程说"按 B 跑步"。它用关卡设计让你自己发现。

宠物系统做的一样。用户以为自己在养宠物，其实在做三件事：积累 Memory、配置工具（CLI 和 MCP）、搭建工作流。等回头看，Agent 基础设施已经搭好了，自己都没意识到。

------

为什么是宠物不是人形助理

三个原因。

恐怖谷。人形助理会让用户期待"你看起来像人，为什么不能像人一样理解我？"宠物没这个包袱。

犯错的代价不同。宠物关系里用户是主导方。人形助理一犯错，失望感就来了。宠物犯错？"哈哈它好笨"，然后继续用。

情感投射更直接。拓麻歌子 1996 年就证明了——32×16 像素的虚拟生物让全世界小孩哭着给它喂饭。人对动物的情感依附比对虚拟人更直接，防备更少。

------

用注意力经济的武器打生产力的仗

扭蛋、进化、稀有度——这些全是注意力经济验证过的机制。抖音用它们让你多刷三小时，手游用它们让你多充三千块。

CodePilot 用同一套机制，但指向完全不同的行为。扭蛋让你打开产品，进化让你持续使用、积累上下文，稀有度让你看到 Agent 确实在变强。

游戏化不是倒退回注意力经济。是拿着它的武器，干不一样的事。

======

Agent 的能力在指数增长。模型几个月翻一倍，工具生态天天在扩，协议标准快速统一。人的学习速度是线性的。这个差距只会越来越大。

让用户读文档？不会读。做新手教程？三天就忘。

宠物系统是目前最现实的解法。它不要求用户学新概念，用人类几千年来最熟悉的关系——照顾一个生命——把一套新技术体系包进去了。

Buddy 在成长，Agent 基础设施也在成长。用户不用知道后面那句话，前面那句就够了。

66 1130

歸藏

3天前

朋友们今晚在飞书直播间聊聊飞书 CLI

32 12