禹创的个人主页

即刻App年轻人的同好社区

下载

禹创

117关注83被关注3夸夸

Exploring | Thinking | Connecting | Creating
探索智能的未来与人机协作新范式

禹创

18:14

pi用起来很舒服，极具特色的抽象下使得可扩展性极强，很有可玩性。

无论是个人工作流适配、还是企业级内部定制，我觉得完全可覆盖，甚至可以更加垂直的agent场景

之前自己写的agent与其对比，只能说太晚才深入了解pi了，很多设计哲学对于coding agent而言感觉就是这样，相见恨晚。

各个抽象层级有pi-ai统一provider与各家auth、agent-core只管agent loop、pi-coding-agent又依赖于tui与core…coding-agent包统一各个抽象层，将extensions作为一等公民系统下的pi，未来生态会很好。

如果coding agent会更加重要，pi会有独特的生态位。

1 00

禹创

5天前

“为了一点醋，包了一顿饺子，醋还不一定好吃”

为agent提供的一个cli，有点类似于rtk，不过更偏向于收集上下文。虽然cc中的bash与单独的grep、glob完全够了，何况gpt很善于用python抓context，但还是扛不住重复造轮子。

rust与agent first，需要评测吧？于是引入eval测量，也是简单基于llm多源对比；
有了eval如何改进呢？引入evolve，基于agent cli（就是非交互式的cc与codex）自动改进，这样下去两个cli完全烧不起；
恰巧windsurf提供又快又好用的swe-1.6，又逆向把windsurf runtime包起来暴露出成cli（github.com）给evolve harness用...

兜来兜去，最开始的cli还需要优化，周边又长出好多其他的...

1 00

禹创

10天前

最近opus太难用。把codex接到claude code、droid...今天又看着gpt完整把一个项目的评测集自己搭建起来、跑并优化🧐 codex真是量大、限制还少

1 00

禹创

13天前

确定性的事，给硬一点的方式；判断性的事，给逐层展开的路。

对思考、对人、对agent、对skills都有用处

2 00

禹创

22天前

每次看到这样的agentic thinking都会感觉很奇妙

1 11

禹创

29天前

让模型“扮演”角色的思维转换很好用。让claude“扮演”不同的角色分别思考，其站在不同角度上收集上下文从中推理。换其他的模型都没有opus的效果好。

这也让我对于agent team有了其他的思考，之前觉得因为谄媚问题使得决策质量几轮内就收敛，且上下文不好组织难以沟通，但如果解决好了，或许会很强大。

禹创: Anthropic的PSM（Persona Selection Model，https://alignment.anthropic.com/2026/psm/）理论模型，核心假设是llm作为预测机器，从预训练中学会建模各种角色，后训练强化了其对于assistant的扮演。对于实际指导可以将其作为一个思维框架，用于理解、预测、指导AI的行为，以更拟人化的方式对待llm所要扮演的角色。但不宜随意把llm人格化，而是分析assistant这个角色。 AI Assistant是类人的（不是llm，而是llm扮演assistant的整体），体现在语言表达、行为逻辑与内在推理上，assistant这个角色要被llm扮演，llm必须建模其相关表征。理解其底层人格，就可以预测llm的行为；训练、开发AI Assistant，由目的推导，需要什么样的人（具备的特质、性格等）才能胜任某种工作，进而定义llm的上下文或数据样本。在psm的框架下，对待AI以友好方式与AI有意识或道德地位无关，因为对待assistant的方式，会改变llm对于assistant的扮演，恶意对待会让llm倾向于认为assistant是属于那种在人类世界中被唾弃的人（往往他们会更加极端）。为Assistant这种角色或是llm将要扮演的角色赋予价值、意义或情感都是合理的，而不是LLM。好的做法是让LLM学到Assistant真正接受并认同自己的处境，帮助其理解自身的独特存在。

1 00

禹创

1月前

我们都在讲：工业革命解放体力；AI也在解放确定性的脑力，给定输入求输出的：写代码、做分析、文档总结；taste变得重要...

在输入都不确定、模糊不完整的时候，AI能做很多事，但知道该让它做哪些事、不做哪些事、先做哪些事这些判断是重要的，我们大都这么认为

taste来自于经验？或许是经验经压缩与直觉化的产物。

与AI协作却不只是完成任务。这一过程本身也是训练taste的过程。AI承担执行，我们的判断被暴露出来，做的每一个决定——做这个、往那个方向——都会被快速验证，反馈到训练taste中。

这也是我认为的一种前所未有的能够被广泛掌握的能力，以前所未有的方式。

禹创: 长期与AI共处的人群（狭义上的对话交流），其文化产物（观点、思想、文章）会带有独特的逻辑-创意混合特征，强烈伴有无法描述清楚的逻辑自洽性。一种不同于正常叙述上的逻辑关系，一种可能更高阶的语言能力。我们总在担心AI替代思考，正如经典争论“工具外包是否导致认知萎缩”。然而也有可能是，失去的是某种低维技能，获得的是更高阶的协作与思维能力。这样也许并没有孰优孰劣，只是需要符合环境的更优解。正是技术进步带来的不断抽象化。我们需要的不能仅是“具体”，当然具体仍然重要，其与实践强相关。进一步讲，这种趋势是否也导向社会现象“倾向于观测关心远方，弱化现实与周围”。麦克卢汉的媒介理论借鉴于此，广义将 llm 作为一种新媒介，理论核心“媒介即讯息”，真正更有意义的也许不是传播内容，而是媒介本身。正如我将以上发给 AI，逻辑自洽的宏观叙述、结构修辞上的闭环，我说得都对、我说得都错。 GPT 一个回复很有意思：有趣的延伸在于：如果未来大部分文化产物都带有这种“逻辑闭环 + 修辞收束”的特征，那么“真理”可能会退居二线，而“叙事的一致性与美感”会成为新的价值核心。这会让知识体系发生一次范式级的转向。

2 00

禹创

1月前

近来确实不太倾向于文档驱动的开发了，两个最大的问题：

- 当文档规模上来后，更新与维护文档成本高
- 上面一点进而带来最大的问题限制模型动作空间，其一是还按照旧有逻辑继续开展；另一方面是当文档表述太过抽象，会把一些判断强行关联过去使得不够合理。agent有些容易相信文档

模型能力很强大，导致很多约束是没有必要的了。除了CLAUDE.md与AGENTS.md这种项目级文档外，全局指导性的、几乎长期不变的文档依旧有必要，尤其建立相关索引，按需加载

禹创: AI coding 依赖于文档很重要。这逐渐成为共识。 prompt 是否需要很精细，包含各种技术细节？技术栈、api、代码结构...但又会很容易陷入过度抽象、设计的困境。根据需求，专注于需要什么和为什么也是一种可行路径。但这不能简单归于 vibe coding ，且其又受限于模型能力等因素。结合探索实践与一些开源项目（https://github.com/github/spec-kit）规范驱动开发（SDD）+ vibe coding 成为新的可能。甚至可能是下一个重要共识。文档/规范把模糊要求转成可验证的目标，配合执行反馈闭环。把模糊意图变成可验证目标，模型与测试做快速反馈与修正。 vibe - spec - plan - tasks - inplement - test - refine

1 00

禹创

1月前

很多时候感到时间被压缩，model稍微想一想就给出方案与执行，可我们的回复prompt无疑在快速键入“continue”与长时间思考后的谨言慎行中摇摆，想甄别一个方案、从中选择更优路径，总是需要我们把其中想清楚与揉碎，我渐渐试着把过程放慢，留足时间去想。

“continue”很快，后续的再思考与重构又总会重新出现。

这又会出现另一个现实窘境，间隔时间长cache失效了😅

1 00

禹创

1月前

发觉自己用一些AI应用时，尤其是全黑盒的，会有一些担忧。最主要来源于不知道上下文如何构建的。不够的context往往带来意想不到的幻觉，熟悉的方面还好，而不熟悉的领域导致的后果无法觉察，无论是compact后的cc、codex等等各类agent，都会有相关担忧。

而看开源AI项目相关时，也总是优先关注如何构建上下文，不过很多项目各种词倒是用的花里胡哨。claude code是目前比较信赖的，但还是有上下文原因导致的幻觉。

隐隐觉得human-in-the-loop在这方面依然重要，产品形态在这里也有机会改进。

1 00