即刻App年轻人的同好社区
下载
App内打开
歸藏
565关注26k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
1天前
阿里昨天发布了 Qwen 3.6 Plus 模型

重点是 Agent 和编码能力有非常大的提升!

最近也是很高产:先是 3.5 Omni、万相2.7、然后就是Qwen 3.6 Plus,而且好像马上 Max 也要发布。

在关于开发和 Agent 的一些测评上,现在 3.6 Plus 的模型相较于 3.5 有显著的提升。

Qwen 3.6 Plus 在图像和文件理解上的能力也获得了加强。

比如在以下方面的表现都非常好:数学图像识别体验、通用的 VQA 真实世界问答、OCR 能力。这也是 Qwen 之前比较强的地方。

更强的是,这次默认支持了 100 万上下文。最长输出接近 991K,输入是 64K。

100 万上下文的表现还是很顶的。在开发体验上,比原来的 256 要强非常多。

价格上,Qwen 3.6 Plus 的输入是 2 / 百万 Token,输出是 12 / 百万 Token。

此外,有些工具(比如网页抽取等)目前还是限时免费的。

现在已经在百炼上线了。后面那个阿里系的qoder、悟空啊都会上,希望他们能快点上一下 code plan 吧。

如果不太确定质量的话,也可以去 OpenRouter 那边免费体验一下,看看效果
11
歸藏
1天前
小米也推出了 MIMO Code Plan

最便宜的 39 每月,最贵套餐 659 每月

统一 Credit 点数体系,没有 5 小时限额这种设置

CodePilot 0.45.1 版本将会支持
53
歸藏
1天前
今天下午 2:00 4:00,在腾讯研究院这边直播
40
歸藏
1天前
Karpathy 分享了他如何构建本地的 AI 知识库,跟我用的方法也很相似。

都是用的 Obsidian,纯本地 MD,然后用一些反向链接、索引的方式把它们连起来。

他构建了一个用大语言模型驱动的个人 Wiki 知识库,然后把原始资料都丢进一个叫 RAW 的目录。

然后让大语言模型把这些原始资料编译成一个 Markdown Wiki,实现以下功能:自动创建摘要、创建索引、创建概念条目、添加相互链接、生成可视化等等。

我是在内容收集的时候就已经做好了,用的是 Obsidian 的那个剪藏插件。
在收集内容的时候,AI 就会自动进行以下处理:打标签、自动总结、翻译、创建摘要,目前就是还没有反向链接。

然后它的 Wiki 构建好以后,就可以在这个 Wiki 上提问,确保数据来源的可置信度。

比如说大语言模型会自己查索引、读相关的文档,写出回答或者报告,不只是在网页上搜。这样的话,它获取的信息基本上都是跟你相关的。

然后它的输出也尽量不是一句话,而是新的文件、新的可视化网页或者是 PPT,然后再回归到知识库里,让知识库越用越厚。

但这个会造成一个问题,就是 Obsidian 的作者也说了,这会污染知识库。所以最好把可靠性来源和 AI 生成的东西分开放。

还有一个比较好的点是,它会让大模型对 Wiki 做健康度检查。比如:找一些自相矛盾的地方、补发一些缺失的信息、发现一些新的关联、提高一致性。

其实现在很多人都是这样做的,我也把这套理念放到了 CodePilot 里。

关于助理文件夹的选择,我一般建议使用 Obsidian 文件夹。

如果你有自己的 Obsidian 文件夹,进去以后 AI 就会直接获取你所有的上下文和知识。

这样一来,你直接就能获得一个拥有完整记忆的 AI 助理。

如果你不知道怎么实践的话,推荐用 Codepilot 的助理试试。

把你的 Obsidian 文件夹放进去,让它帮你整理,同时让它把这些原则写到 Claude.md 里面。

详情:x.com/op7418/status/2039898050697839041
329
歸藏
1天前
谷歌昨天发布了 Gemma 4,这次非常牛逼!
专门用来在本地设备上跑 agent ,还支持多模态。

四个参数大小:
E2B:主打手机 / IoT / 边缘设备。
E4B:为移动端 + Jetson / 树莓派设计。
26B MoE:单次激活 3.8B,有效参数很小,主打高 TPS、低延迟。
31B Dense:全密集 31B,主打桌面工作站 / 单卡 H100 等。

这次他们把 Agency Workflows 的支持作为第一优先级:原生支持 Function Call、JSON 和结构化输出、System Instruction。

更强的是这玩意还是原生多模态模型,支持:图像和视频理解,语音转文本,可以做本地语音助手。

而且它们这次是真正的 Apache 2.0 开源,允许商用、再分发和内嵌产品,以及私有部署,没有额外条款。

谷歌还发布了一个安卓应用,来体验他们这次新发布的 Gemma 4 模型。

我用我现在的小米 17 Ultra 试了一下,在用这个 E4B 模型的时候,推理速度非常快。

而且这个 App 现在还内置了一个 Skills 的体验区域,你可以自己去让它调用工具编写和试用 Skills。

可以在 Google Play 搜索 Google AI Edge Gallery 下载使用。

详情:blog.google
36
歸藏
1天前
虽然出去玩了 10 天,但是效率还变高了,每天1.3 个版本

歸藏: 3 月 Codepilot 数据,下载量猛增

00
歸藏
2天前
3 Codepilot 数据,下载量猛增
42
歸藏
2天前
刚发现 TRAE 发布了独立的 SOLO 客户端。

而且现在有网页端和 PC 端两个了,你可以根据自己的需求选择。

内置的 Skills 市场可以选择适合自己的 Skills,每个 Skills 都有对应的介绍还有案例。当然你也可以创建自己的 Skills。

Solo 客户端里面有两个模式,点击左上角切换,名字很清楚:

Code 模式
一般是用来写代码的,涉及到开发的一些工程、任务,可以用这个模式。

MTC模式
主要是针对互联网工作中的非程序员群体(比如设计师、产品经理等),帮大家写文档、整理信息、搜集信息。

Solo 客户端右边的这个侧边栏比较有意思,里面包含了他所有的上下文参考信息,还有他生成的一些文档、PPT、网页等产物。

此外还有复杂任务,比如当你开启了计划模式,侧边栏会显示待办项目哪些任务还没有完成。

比如说我这里用它的 MTC 模式,让它检索我的 GitHub 项目中近期的所有 Issues。

然后,它自然地为每个 Issue 分了类,并大致介绍了每个的问题。

我又让他去查看里边的内容和信息,找到置信度高的、以及可以帮我修复问题的这些 Issues(也就是用户反馈)。

他自己制定了“置信度高”和“可修复性高”这种交叉的标准,定好标准后,就开始筛选这些对应的 Issues 了。

筛选得非常细,还分了“高执行度、高可修复性”以及“高执行度、中可修复性”这种交叉的分类体系,我看完以后就非常清晰了。

我还让他写了一个网页看板,去对他刚才获取到的用户反馈进行分类。他写得也很好,预览后可以非常清晰地看到:P0 、P1 、P2 的问题。

每个问题的执行度、可修复性以及问题详情都非常清楚。

现在好像还是内测阶段,免费使用,可以去试试
67
歸藏
3天前
CodePilot 宠物助理上线!

完成度比 Claude Code 高多了!

藏师傅想用这个东西引导你去构建自己的 Agent 工作流程,所以它是可成长的

写了篇文章,解释了一下为什么这么做:mp.weixin.qq.com

聊聊我做了什么,以及为什么 Agent 产品迟早都要走上游戏化👇

======

问题出在哪

2026 年的 Agent 已经很强了。能连续工作几小时,能连外部服务,能记住你是谁,你不在的时候还能主动干活。

但你跟一个普通用户说"配置 MCP,写 Skills,注册 CLI,维护 Memory",他大概率关掉窗口回去用 ChatGPT 了。

AI 能做多少事取决于两样东西:手上有什么工具,知道关于你的多少信息。工具得有人装,信息得有人喂。用户不会主动做这些,不是懒,是不知道该做什么、做了有什么好处。

Memory 在后台默默变大,用户感知不到。CLI 装了五个,用户不知道 Agent 变强了多少。价值在涨,但用户看不见。

------

从一颗蛋开始

CodePilot 的解法是 Buddy 系统。

用户第一次打开,看到的不是功能列表,是一颗蛋。点一下,蛋碎了,一只 Buddy 蹦出来。可能是猫、企鹅、龙,也可能是章鱼。16 种物种,随机分配。

为什么用扭蛋不让用户选?80 种组合(16 物种 × 5 稀有度),让用户选会直接选择焦虑。扭蛋天然带叙事价值——"我开出了一只传说级的龙"比"我选了一条龙"有意思得多。

------

稀有度不是皮肤,真的影响能力

5 级稀有度:普通、非凡、稀有、史诗、传说。出率 60%、25%、10%、4%、1%。

大部分宠物系统的稀有度只影响外观。CodePilot 不一样,稀有度直接影响 Agent 的工作能力。

普通 Buddy 每 3 轮对话提取一次记忆,史诗和传说 Buddy 每 2 轮就提取一次。同样用一个月,传说级比普通级多出将近 50% 的上下文量。上下文多了,Agent 处理你的问题就更准。

稀有度还影响人格。普通 Buddy 只在一个维度上有性格加成,传说级全维度拉满,回复风格和决策倾向都不一样。

------

进化系统

Buddy 会从普通一路进化到传说。靠三个数字:记忆数量、活跃天数、对话次数。

从普通到非凡:7 天 + 10 条记忆 + 20 次对话。到传说级:90 天 + 100 条记忆 + 200 次对话。

成长曲线参考了宝可梦的经验系统,前期升得快给正反馈,中期平稳,后期要真投入。

三个指标一起看是故意的。只看对话次数,水聊天就能升;只看天数,挂机就行。三项同时达标,才说明你真的在用 Agent 干活。

------

心跳系统

很多宠物系统的心跳逻辑是"回来喂我,不然我饿死"。拿负面情绪绑架用户。

CodePilot 反过来。你不在的时候,Buddy 自动帮你干活:整理记忆文件、跑到期的定时任务、准备一份简报。

你回来打开 CodePilot,Buddy 已经帮你准备好了:"今天有 3 封重要邮件,周刊素材收集到了 7 条,下午 2 点有健身。"

不是"你的宠物好饿",是"你的宠物帮你把活干了"。

------

空间存在感

CLI 的宠物只在你执行命令时出现,说白了是个 XP 条换皮。

CodePilot 的 Buddy 同时出现在侧栏、看板、聊天窗口、系统通知、顶栏。你不用执行命令才能看到它,它就在那里。

桌面端能做到"一直在",CLI 做不到。这种持续的存在感改变的是你和工具的关系——不是在用一个软件,是在跟一个伙伴一起工作。

======

为什么这么设计

------

隐性教学

马里奥第一关不会弹教程说"按 B 跑步"。它用关卡设计让你自己发现。

宠物系统做的一样。用户以为自己在养宠物,其实在做三件事:积累 Memory、配置工具(CLI 和 MCP)、搭建工作流。等回头看,Agent 基础设施已经搭好了,自己都没意识到。

------

为什么是宠物不是人形助理

三个原因。

恐怖谷。人形助理会让用户期待"你看起来像人,为什么不能像人一样理解我?"宠物没这个包袱。

犯错的代价不同。宠物关系里用户是主导方。人形助理一犯错,失望感就来了。宠物犯错?"哈哈它好笨",然后继续用。

情感投射更直接。拓麻歌子 1996 年就证明了——32×16 像素的虚拟生物让全世界小孩哭着给它喂饭。人对动物的情感依附比对虚拟人更直接,防备更少。

------

用注意力经济的武器打生产力的仗

扭蛋、进化、稀有度——这些全是注意力经济验证过的机制。抖音用它们让你多刷三小时,手游用它们让你多充三千块。

CodePilot 用同一套机制,但指向完全不同的行为。扭蛋让你打开产品,进化让你持续使用、积累上下文,稀有度让你看到 Agent 确实在变强。

游戏化不是倒退回注意力经济。是拿着它的武器,干不一样的事。

======

Agent 的能力在指数增长。模型几个月翻一倍,工具生态天天在扩,协议标准快速统一。人的学习速度是线性的。这个差距只会越来越大。

让用户读文档?不会读。做新手教程?三天就忘。

宠物系统是目前最现实的解法。它不要求用户学新概念,用人类几千年来最熟悉的关系——照顾一个生命——把一套新技术体系包进去了。

Buddy 在成长,Agent 基础设施也在成长。用户不用知道后面那句话,前面那句就够了。
1130
歸藏
3天前
朋友们今晚在飞书直播间聊聊飞书 CLI
12