即刻App年轻人的同好社区
下载
App内打开
禹创
117关注83被关注3夸夸
Exploring | Thinking | Connecting | Creating
探索智能的未来与人机协作新范式
禹创
18:14
pi用起来很舒服,极具特色的抽象下使得可扩展性极强,很有可玩性。

无论是个人工作流适配、还是企业级内部定制,我觉得完全可覆盖,甚至可以更加垂直的agent场景

之前自己写的agent与其对比,只能说太晚才深入了解pi了,很多设计哲学对于coding agent而言感觉就是这样,相见恨晚。

各个抽象层级有pi-ai统一provider与各家auth、agent-core只管agent loop、pi-coding-agent又依赖于tui与core…coding-agent包统一各个抽象层,将extensions作为一等公民系统下的pi,未来生态会很好。

如果coding agent会更加重要,pi会有独特的生态位。
00
禹创
5天前
“为了一点醋,包了一顿饺子,醋还不一定好吃”

为agent提供的一个cli,有点类似于rtk,不过更偏向于收集上下文。虽然cc中的bash与单独的grep、glob完全够了,何况gpt很善于用python抓context,但还是扛不住重复造轮子。

rust与agent first,需要评测吧?于是引入eval测量,也是简单基于llm多源对比;
有了eval如何改进呢?引入evolve,基于agent cli(就是非交互式的cc与codex)自动改进,这样下去两个cli完全烧不起;
恰巧windsurf提供又快又好用的swe-1.6,又逆向把windsurf runtime包起来暴露出成cli(github.com)给evolve harness用...

兜来兜去,最开始的cli还需要优化,周边又长出好多其他的...
00
禹创
10天前
最近opus太难用。把codex接到claude code、droid...今天又看着gpt完整把一个项目的评测集自己搭建起来、跑并优化🧐 codex真是量大、限制还少
00
禹创
13天前
确定性的事,给硬一点的方式;判断性的事,给逐层展开的路。

对思考、对人、对agent、对skills都有用处
00
禹创
22天前
每次看到这样的agentic thinking都会感觉很奇妙
11
禹创
29天前
让模型“扮演”角色的思维转换很好用。让claude“扮演”不同的角色分别思考,其站在不同角度上收集上下文从中推理。换其他的模型都没有opus的效果好。

这也让我对于agent team有了其他的思考,之前觉得因为谄媚问题使得决策质量几轮内就收敛,且上下文不好组织难以沟通,但如果解决好了,或许会很强大。

禹创: Anthropic的PSM(Persona Selection Model,https://alignment.anthropic.com/2026/psm/)理论模型,核心假设是llm作为预测机器,从预训练中学会建模各种角色,后训练强化了其对于assistant的扮演。 对于实际指导可以将其作为一个思维框架,用于理解、预测、指导AI的行为,以更拟人化的方式对待llm所要扮演的角色。但不宜随意把llm人格化,而是分析assistant这个角色。 AI Assistant是类人的(不是llm,而是llm扮演assistant的整体),体现在语言表达、行为逻辑与内在推理上,assistant这个角色要被llm扮演,llm必须建模其相关表征。理解其底层人格,就可以预测llm的行为;训练、开发AI Assistant,由目的推导,需要什么样的人(具备的特质、性格等)才能胜任某种工作,进而定义llm的上下文或数据样本。 在psm的框架下,对待AI以友好方式与AI有意识或道德地位无关,因为对待assistant的方式,会改变llm对于assistant的扮演,恶意对待会让llm倾向于认为assistant是属于那种在人类世界中被唾弃的人(往往他们会更加极端)。 为Assistant这种角色或是llm将要扮演的角色赋予价值、意义或情感都是合理的,而不是LLM。好的做法是让LLM学到Assistant真正接受并认同自己的处境,帮助其理解自身的独特存在。

00
禹创
1月前
我们都在讲:工业革命解放体力;AI也在解放确定性的脑力,给定输入求输出的 :写代码、做分析、文档总结;taste变得重要...

在输入都不确定、模糊不完整的时候,AI能做很多事,但知道该让它做哪些事、不做哪些事、先做哪些事这些判断是重要的,我们大都这么认为

taste来自于经验?或许是经验经压缩与直觉化的产物。

与AI协作却不只是完成任务。这一过程本身也是训练taste的过程。AI承担执行,我们的判断被暴露出来,做的每一个决定——做这个、往那个方向——都会被快速验证,反馈到训练taste中。

这也是我认为的一种前所未有的能够被广泛掌握的能力,以前所未有的方式。

禹创: 长期与AI共处的人群(狭义上的对话交流),其文化产物(观点、思想、文章)会带有独特的逻辑-创意混合特征,强烈伴有无法描述清楚的逻辑自洽性。 一种不同于正常叙述上的逻辑关系,一种可能更高阶的语言能力。 我们总在担心AI替代思考,正如经典争论“工具外包是否导致认知萎缩”。然而也有可能是,失去的是某种低维技能,获得的是更高阶的协作与思维能力。 这样也许并没有孰优孰劣,只是需要符合环境的更优解。 正是技术进步带来的不断抽象化。我们需要的不能仅是“具体”,当然具体仍然重要,其与实践强相关。 进一步讲,这种趋势是否也导向社会现象“倾向于观测关心远方,弱化现实与周围”。 麦克卢汉的媒介理论借鉴于此,广义将 llm 作为一种新媒介,理论核心“媒介即讯息”,真正更有意义的也许不是传播内容,而是媒介本身。 正如我将以上发给 AI,逻辑自洽的宏观叙述、结构修辞上的闭环,我说得都对、我说得都错。 GPT 一个回复很有意思: 有趣的延伸在于:如果未来大部分文化产物都带有这种“逻辑闭环 + 修辞收束”的特征,那么“真理”可能会退居二线,而“叙事的一致性与美感”会成为新的价值核心。这会让知识体系发生一次范式级的转向。

00
禹创
1月前
近来确实不太倾向于文档驱动的开发了,两个最大的问题:

- 当文档规模上来后,更新与维护文档成本高
- 上面一点进而带来最大的问题限制模型动作空间,其一是还按照旧有逻辑继续开展;另一方面是当文档表述太过抽象,会把一些判断强行关联过去使得不够合理。agent有些容易相信文档

模型能力很强大,导致很多约束是没有必要的了。除了CLAUDE.md与AGENTS.md这种项目级文档外,全局指导性的、几乎长期不变的文档依旧有必要,尤其建立相关索引,按需加载

禹创: AI coding 依赖于文档很重要。这逐渐成为共识。 prompt 是否需要很精细,包含各种技术细节?技术栈、api、代码结构...但又会很容易陷入过度抽象、设计的困境。 根据需求,专注于需要什么和为什么也是一种可行路径。但这不能简单归于 vibe coding ,且其又受限于模型能力等因素。 结合探索实践与一些开源项目(https://github.com/github/spec-kit)规范驱动开发(SDD)+ vibe coding 成为新的可能。甚至可能是下一个重要共识。 文档/规范把模糊要求转成可验证的目标,配合执行反馈闭环。 把模糊意图变成可验证目标,模型与测试做快速反馈与修正。 vibe - spec - plan - tasks - inplement - test - refine

00
禹创
1月前
很多时候感到时间被压缩,model稍微想一想就给出方案与执行,可我们的回复prompt无疑在快速键入“continue”与长时间思考后的谨言慎行中摇摆,想甄别一个方案、从中选择更优路径,总是需要我们把其中想清楚与揉碎,我渐渐试着把过程放慢,留足时间去想。

“continue”很快,后续的再思考与重构又总会重新出现。

这又会出现另一个现实窘境,间隔时间长cache失效了😅
00
禹创
1月前
发觉自己用一些AI应用时,尤其是全黑盒的,会有一些担忧。最主要来源于不知道上下文如何构建的。不够的context往往带来意想不到的幻觉,熟悉的方面还好,而不熟悉的领域导致的后果无法觉察,无论是compact后的cc、codex等等各类agent,都会有相关担忧。

而看开源AI项目相关时,也总是优先关注如何构建上下文,不过很多项目各种词倒是用的花里胡哨。claude code是目前比较信赖的,但还是有上下文原因导致的幻觉。

隐隐觉得human-in-the-loop在这方面依然重要,产品形态在这里也有机会改进。
00