即刻App年轻人的同好社区
下载
App内打开
Yibie
822关注4k被关注4夸夸
用好奇心行走江湖
以热爱行侠仗义
置顶
Yibie
2年前
Yibie 的自我策展

我整理之前发过的帖子,这些是值得推荐一看的。也顺道向你暴露我的世界观、性格、兴趣和观点,有机会的话交个朋友😊

✨ AI 与新世界

得到 Prompt 系列(共 18 个) ⭐️已被“提示词图书馆收录”
m.okjike.com

Promopt: 文章精炼大师
web.okjike.com

Promopt: 概念卡片制作专家
web.okjike.com

Promopt: PPT 大纲制作助手 ⭐获得即刻精选推荐
web.okjike.com

Promopt: Kiweb. 文章精华浓缩专家
web.okjike.com

开发 12 Weeks LifeRPG 背后的过程与思考
web.okjike.com

用 AI 帮忙总结笔记(测试了 ChatGPT、Gemini、Kiweb.、豆包)
web.okjike.com

微软 CTO Kevin Scott 接受 every 访谈
web.okjike.com

吴恩达总结 AI 工程师制作 Promopt 的经验
web.okjike.com

OpenAI 2024 年春季发布会源文件, 包括演讲稿和演示用代码
web.okjike.com

视频内容识别是 Gemini Pro 1.5 的杀手锏
web.okjike.com

Perplexity 的官方 Promopt
web.okjike.com

大模型公司对 Token 的计算方法都不一样
web.okjike.com

AI 与创作者经济
web.okjike.com

------------------------------------

🤔我对这个世界有点看法

every 长文: AI 将冲击广告业, 后果很严重
web.okjike.com

Vision Pro 之我见
web.okjike.com

社会生活的趋同让人恐惧
web.okjike.com

「探索式」笔记法 ⭐获得即刻精选推荐
web.okjike.com

子弹日记法
web.okjike.com

商业价值的 3 个重要特征
web.okjike.com

Arc 这家公司的特点
web.okjike.com

新产品形态: Jina AI 将 URL 变为 API
web.okjike.com

------------------------------------

📒囤了一些清单

值得推荐的豆瓣小组
web.okjike.com

包豪斯设计的精华链接
web.okjike.com

Design Engineer 的 Twitter List
web.okjike.com

------------------------------------

📖️那些值得推荐的好书

读完斯多葛主义代表人物塞涅卡的书信集 <短暂的生命>
web.okjike.com

程序员超强大脑笔记
web.okjike.com

读完<巨人的工具>
web.okjike.com

读完<为什么伟大不能被计划>
web.okjike.com

精要主义读书笔记
web.okjike.com

读《了不起的盖茨比》
web.okjike.com

------------------------------------

💭️脑海里闪过的一句话

天才税
web.okjike.com

高度抽象的现代生活损害人类天生的类比能力
web.okjike.com

你能列出充分反映时代精神的 3 家公司吗?
web.okjike.com

解决拖延症的办法是找出之前最想完成但一直没做的事
web.okjike.com

美 = 深刻的简洁
web.okjike.com

尊重常识 = 不犯基本错误
web.okjike.com

与其花 1 小时如昙花一现, 不如花 10 倍时间震惊四座
web.okjike.com

这个世界有种人,以好人为食。
web.okjike.com

最难沟通的,是被灌输了标准答案的人
web.okjike.com

拖延 = 甩锅给未来的自己
web.okjike.com

折腾的定义
web.okjike.com

------------------------------------

🛠喜欢折腾工具

开启 Mac 系统自带白噪音音乐的方法
web.okjike.com

20-20-20 护眼原则
web.okjike.com

用哔哩哔哩替代网易云音乐
web.okjike.com

中国著名羽毛球运动员郑思维学习英语的工具和方法
web.okjike.com

------------------------------------

📁未归类的答案

「参考答案」的策展原则
web.okjike.com
1620
Yibie
3天前
# 字节跳动的 AI 编程团队,推荐了这 10 个 Skills

---

上个月字节 TRAE 团队发布了一本《2026 企业级 AI 编程实践手册》,里面有一份 Skills Top 10 排行榜。这是目前我看到的第一份来自大厂的 Agent Skills 推荐清单。

先说背景。TRAE 是字节基于 Doubao-Seed-2.0-Code 模型做的企业级 AI 编程工具,定位是「真正的 AI 工程师」——不只是帮你补全代码,是自主拆需求、做任务规划、写代码、跑测试、部署,全流程。

他们内部大规模使用 Agent 之后,沉淀出了这 10 个最常用的 Skills。排名有先后:

1. frontend-design —— 前端设计。为什么排第一?因为 AI 写的 UI 真的太丑了。这个 Skill 教 AI 什么是好的设计。

2. cache-components —— 组件缓存。让 AI 复用已生成的组件,而不是每次都重新造。省 token,也省时间。

3. fullstack-developer —— 全栈开发。给 AI 一个全栈开发者的心智模型:前后端一起考虑,数据流怎么走,API 怎么设计。

4. frontend-code-review —— 前端代码审查。

5. code-reviewer —— 通用代码审查。注意:前 5 名里有两个 review Skill。说明字节很重视 AI 写出来的代码质量——不是能跑就行。

6. webapp-testing —— Web 应用测试。

7. pr-creator —— 自动创建 PR。写完代码 → 自动提 PR,省一步。

8. fix —— Bug 修复。专门用来处理「这里有个 bug,帮我修」。

9. update-docs —— 文档更新。代码改了,文档自动跟上。

10. find-skills —— 发现 Skills。这个最特别——让 AI 自己去搜索和推荐 Skills。

看完这个清单,有几个观察:

第一,设计类 Skill 排第一不是偶然。字节的人显然被 AI 生成的紫色渐变和圆角卡片折磨够了。任何人只要用过 AI 写前端,就知道 frontend-design 为什么是刚需。

第二,Top 10 里有两个 review Skill 和一个 testing Skill。这说明字节对 AI 代码的策略是「写得多不如写得对」——和 SkillsBench 那篇论文的结论一致:好 Skills 能提升 51%,差 Skills 能拉低 39%。

第三,find-skills 这个 Skill 很有意思。它本质是一个元技能(meta-skill)——让 AI 自己去发现还需要什么技能。这个思路和 EvoSkill 的「自动进化」一脉相承:最好的 Skills 配置不是人写的,是 AI 在实践中自己找出来的。

如果你在用 Claude Code 或 Codex,这份清单可以直接照搬。前 5 个装上去,你的 Agent 就已经有了大厂级别的 Skills 配置。

手册全文:lcnziv86vkx6.feishu.cn
474
Yibie
3天前
Claude Code 源码级拆解:SKILL.md 有 15+ 个隐藏字段

有人把 Claude Code 的 TypeScript 源码翻了个底朝天。我读了原文,发现几个细节远比「主循环是 while-loop」有意思。

1. SKILL.md 不只是 Markdown

parseSkillFrontmatterFields() 函数解析至少 15 个字段:allowed tools(给 Skill 授权额外工具)、model overrides(指定用哪个模型)、argument hints(参数提示)、execution context(设为 fork 就是隔离执行)。

大多数人只用了 name + description。前 4 个才是真正的隐藏能力。

2. 权限系统里藏了一个 ML 模型

yoloClassifier.ts —— 两阶段分类器。Stage 1 快速过滤,Stage 2 Chain-of-Thought 推理评估风险。

纵向数据:使用 50 个 session 内,自动批准率约 20%;超过 500 个 session 后上升到 40% 以上。

3. 画边界,不逐条审批

传统做法每个操作弹窗 → 疲劳审批形同虚设。Claude Code 的做法是画一个圈(sandboxing + auto-mode classifier),圈内自由,圈外审批。和 Apple App Sandbox 同思路。

4. 上下文压缩是 append-only

五层管线:摘要 → 去重 → 保留 → 精简 → append-only 存储。压缩只减少当前窗口 token,原始记录永不丢失。

5. 27 种 Hook 事件

不只是 file save。文件变化、工作区事件、权限决策、上下文注入、MCP 结果转换、重试控制……15 种有专门的输出 schema。本质是把整个 Agent 生命周期事件都暴露出来。

论文没有新理论,就是老老实实翻了一遍源码。但正因为全是工程,所以特别值得看。

arxiv.org
02
Yibie
4天前
多 Agent 协作,从论文走进了终端

二月份我写过一篇笔记,讨论怎么构建可靠的 LLM 蜂群。那篇的核心问题是四个:Agent 失败了谁能发现?结果怎么收敛?任务怎么拆?Agent 之间怎么互相喊人。

上周 GitHub 热门榜第一的项目,有人把它们做成了能跑的产品——ruflo,4 万多 star。

核心思路:你给需求,Planner Agent 先翻代码库、拉文档、反问模糊点,生成依赖图。然后一次性启动多个 Agent,写代码的、跑测试的、做安全审计的、搞部署的,各干各的。做完调度器汇总验证。

有个细节我很喜欢:Planner 生成计划后,会额外 spawn 一个子 Agent 来 review 计划有没有漏洞。Agent 检查 Agent——这就是二月份我在蜂群笔记里说的「收敛系统」,现在变成了代码。

最近 X 上有人把多 Agent 协作总结成四种模式:

Pipeline 流水线:适合固定步骤,像生产线
Supervisor 主管:统一调度,这个项目用的就是这种
Swarm 转接:无固定主管,灵活但要防踢皮球
Mesh 网状:自由度最高,最难调试

四种模式没有谁碾压谁。重点是——这不再是论文。4 万多 star 说明一件事:单 Agent 已经不够用了。

而且它直接对接 Claude Code 和 Codex。不是替代你的工具,是让它们组队。

项目地址:github.com
01
Yibie
4天前
没想到《人物》的谢梦瑶老师离职了,还指称主编张跃搞职场霸凌
11
Yibie
4天前
最近翻自己写过的内容,发现过去三个月我无意中串起了一条线。

二月初介绍 SkillRL 那篇论文的时候,被一个观点击中:Agent 每次做任务都像第一次学。你教它一个技巧,下次遇到类似场景,它要么记不住,要么机械套用。

论文作者说得更直接——你让 Agent 记住的是"原始经历",不是"可复用的技能"。就像一个人每次遇到问题都去翻日记,而不是总结出"下次遇到这种事,我应该这样做"。

二月中看到 SkillsBench。这个团队干了件苦活:84 个任务、11 个领域、七千多条轨迹,就为了回答一个问题——Skills 到底有没有用?

答案很反直觉。好的 Skill 能让成功率提升 51.9%,差的能让它下降 39.3%。最要命的一条:让模型自己给自己写 Skills,效果是负的。模型擅长消费技能,不擅长创造技能。

这就尴尬了。Skills 有用,但得人来写。人写又慢,还无法规模化。

然后四月底,Sentient Labs 发了个叫 EvoSkill V1 的开源工具。

它的逻辑很简单:跑 benchmark 看哪里失败了 自动生成新的 Skill 文件 再跑一遍 继续改进。就两条命令,evoskill init evoskill run,剩下全自动。

效果:OfficeQA 60% 拉到 68%,SealQA 26% 拉到 38%。最让我在意的是零样本迁移涨了 5.3 分——技能真的在泛化,不是死记硬背。

我翻了翻推上的讨论,有句话很精准:"We are no longer writing prompts. We are designing feedback systems that write prompts for us."

二月初理论,二月中评估,四月底工程落地。三个月,从"技能应该进化"到"技能自动进化"。

这大概就是 2026 年的节奏。
00
Yibie
5天前
我把 SPEC-AGENTS 升到 v3 了。

核心变化:不再让 AI 每次读一堆 spec / plan / task / change log。过去这种纯 SPEC 推动方式,在模型能力弱的时候有用,但现在模型能力变强了许多,不需要过多的硬性约束,也可以规划得很好。因此,如果严格的遵守 SPEC 开发范式,我觉得会更快烧掉上下文和 token。

现在 SPEC-AGENTS 升级到 v3,改成我称之为 EDPP 的开发方式:「证据驱动阶段规划」。

它的不同之处是,先告诉 AI 边界、当前 phase、验收标准,但不些具体的实现方式。一轮开发后,用测试和 evidence 证明结果,通过之后,再基于当前阶段的实现,直接制作下一个的计划。然后在按照计划执行,如此循环。 有点像渐进式开发的感觉。

我做了一个小对比测试:同一个需求下,v2 默认读取约 601 tokens,v3 约 290 tokens,少了 51.7%;需要维护的写入面从 5 个降到 2 个。

EDPP 让大模型“少写文档”,将宝贵的上下文留给真正长期有价值的东西。

github.com
03
Yibie
6天前
从昨天用到现在, DS 1M 上下文才用了 32%。

DeepSeek 的一百万上下文真扎实!
30
Yibie
6天前
一直寻找一个 Agent 「马具」,可以提供项目级别的 WorkSpace 环境,有项目级的记忆,技能集。里面的 Agent 也有自己的记忆,技能集。会根据项目的需求自我进化。

研究了一天的 Tape System 之后,我发现它的设计非常适合为 Agent 提供一个统一的上下文环境。而当前主流的做法是,直接拆分成会话,或记忆,是割裂的。

我还用了 Hermes Agent,我认为它的 Harness Agent 工程实现方面十分优秀,而且 Agent 自进化的路线也提得很好,问题是,它没有项目级的 WorkSpace。新出的 Kanban 其实也是基于 Agent 而非基于项目上下文的。

于是,昨天晚上,让 Hermes Agent 自我迭代一个新版本,将 Bub Tape 融合进来,通过后者提供 WorkSpace 级别的上下文管理。

这样子,既可以得到 Hermes Agent 里优异的 Harness Agent 工程保证,又可以享受 Bub Tape System 的灵巧。

我把这个缝合怪叫做 Hermes Bub。
00
Yibie
8天前
今天看到 AMP 说,最适合 GPT-5.5 的挡位是默认的 Medium,除非遇到棘手情况,不建议开 Extra High。最不推荐开 High 档,AMP 经过测试发现,这个挡位的 GPT-5.5 生成质量还不如 Medium
81
Yibie
10天前
DeepSeek-TUI 的界面布局不错。尤其是右边的 Plan Task 分区,一目了然。

缺点是对话区,用户输入,和 AI 输出的对话分界不明显。

但这个设计思路可以学习。
61