即刻App年轻人的同好社区
下载
App内打开
東方既白_
67关注95被关注0夸夸
東方既白_
17天前
《Hertress》太有意思了,从未玩过这样的解谜游戏,通过移动物件,使答案自然浮现。
试玩版体验 treespuzzle.com
01
東方既白_
22天前
今天第一次知道 EA (Executive Assistant) 这个角色,说人话就是避免 CEO 因不重要的活动分散注意力和确保领导者充分利用有限的时间。
(来源:Michael E. Porter,Nitin Nohria 《CEO 的时间管理》, Harvard Business Review, 2018)

同时,把控一个系统,我更倾向于认为它是动态的有惯性的,会自己演化。相比“管理工具”更需要“调谐工具”。
(有一种比喻是可以想象成《RimWorld》中的小人们,有自己的技能条,会自己干活,你只能微调他们)

其中重要能力,是快速感知偏差 + 快速微调,包括在周边建立一系列护栏,尽可能减少系统出轨,至少在其偏离轨道时能有所预警。
(这个护栏的理念,又和 Harness 不谋而合了,来源:mitchellh.com ,Step 5: He calling this "harness engineering." It is the idea that anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent never makes that mistake again.)

只是这里把 agent 犯错引申为多人系统,人们已经在为 agentic engineering 设计了那么多护栏,那么对于真实系统中的管理问题呢?
00
東方既白_
23天前
挺酷的,这种前端效果估计以前研究一天也搞不出来,所说即所得。
00
東方既白_
29天前
继续学习 build in public ,周末做了个监控仓库分支的小玩意儿,分享下我是怎么做的:

背景是这个repo迭代了一年多,光MR数编号就有1000+,接手时分支有270个(理想正常情况下应该是几十个)

这里最大的反事实是,虽然我已经想好大概代码架构了,但是在聊的前十轮我都要求其[不要编码],结果这种限制反而激发了其能力。

从开始到做出第一份报告,中间耗时大约3小时,主要是在获取数据的技术问题上卡了很久。基本流程是先git拿所有远程分支,然后调用mcp拿关联的mr信息,然后llm根据讨论好的方案出报告。

跑完第一遍后,我让其整理sop到文件中,然后/reset清除记忆重新测,这是一个必要的步骤,在这个过程中测试流程稳定性。但神奇的是,本来应该要llm分析的部分,它开始写个脚本试图将这个过程结构化。

这是一个很有意思的过程,优点是变成脚本会更可控,也更加省token的方式,而且不容易幻觉。缺点自动生成的版本是缩水的,少了好几个章节。

最后我让其参考第一版都补上了缺失部分,陆陆续续加了一些又花了3个小时。可以想象,如果我上来就要求其写代码流程,结果一定是别扭的,后续迭代花费时间可能更长。

最后在openclaw配了个定时任务,让其自己触发,更新前端+推送,后面就自己run起来了。

全流程迭代总花费6-8小时。

图1:更直观的分阶段全景(我自己设计的)
图2:报表目录完整版(根据实际情况加)
图3:整体的workflow(浓缩下来其实就1个md和4个script)
01
東方既白_
1月前
写得不错,尤其是点出了候选空间和决策空间的差异,而AI更多扩展前者。
对于真实世界的决策问题,弄不好会背锅那种,AI 能提前收集一大堆信息,并用其模型能力处理掉一部分,但仅是一部分。就知识而言,可有四种层级:
- 知道自己知道
- 知道自己不知道
- 不知道自己知道(暗知识,经验等)
- 不知道自己不知道

第一象限本来就有,ai 做了就是如做。第二象限是ai可以帮忙的,已知问题在哪儿,先前可能因为忙/成本高/麻烦等没管,这时确能提效。第三象限是ai容易fail的地方,反而是需要人来补充大量项目暗知识,通常来说补充后会带来能力提升(也看到一些showcase)。第四象限才是真正的问题,如果自己都不知道这里有问题,就无法要求ai能自行覆盖之,特别是各种auto approval情形下。

第四象限暗藏的风险,能提前规避多少,取决于很多东西,因为它不是一个光靠想就能想通的玩意儿。但结合“边构建边探索”的循环,以及将更多暗知识摆到台面上,或许真的照亮第四象限的迷雾。

从无限候选空间到有限决策行动:从兰道尔原理看 AI 时代的真正约束

00
東方既白_
1月前
刚才和 opus/sonnet/glm-5.1 一起进行了对一个神经网络模型权重的有效性分析,最终沉淀出一个19页的pdf报告,整体断续可能花了2-3个小时吧。

真的能够根据现象进行推测,前提是你得真的理解分析了啥,并提出关键问题。反正不管假设对不对,总是能通过对比实验,拿到结论的。

难点在于定方向,现在的 AI 还是缺少方向感,得指个路,动一下,当然现在已经可以动非常久了。那也意味着提供方向指引,[杠杆效应}在增加。

也就是这种驱动力,还算是当今人能优于 AI 的一个点。但如果未来模型迭代出“自驱力”这个东西呢,那可能真没人类什么事情了。

那未来的稀缺能力之一,就是你的“自驱力”得比过去高出一个数量级。现在就开始在空间/时间尺度上培养吧~

ps. glm-5.1 还是有点东西的,thinking很重,哐嘡给我干一堆图表,后面不用它是因为太卡了...🤣 几分钟没响应。当然 opus 肯定是大哥
00
東方既白_
1月前
在编写框架代码如此方便的当下,完全可以从零构建起适合你自身业务逻辑的一套流程,来近似n8n这种效果。

以前大家习惯于用网络请求做llm call(层级1)但完全可以用网络请求做agent call,有点像调用只一轮回复的subagent,但它可以是异构的,其拥有一个独立沙箱和专门设计的工具/skill/mcp等等。(层级2)

又因为可以将这个agent call做成webhook,因此就可以在后端调用,或者做成前端给用户触发,因此这个前后端系统就拥有了一个更高的语义层次。比如原本的agent call是分析一组实验的运行状况,当系统已沉淀了100个这样的agent call运行结果时,就可以做更高层次的对比分析,风险诊断。这个前后端系统就是层级3

当然也可以把这个层级3的后端暴露,做成cli,mcp,skills 等任何形式,让其同时面向人类用户和agent。

接着在你预先定义的高层次任务在进行归纳总结,将层级3作为输入,抽象到这一步,基本上就是管控视角了。

这种层级化设计,兼顾了确定性规则和不确定的llm分析,感觉是很难被蒸到某个具体的skills里的。如今构建这种系统的时间成本一直在降,这种流程被探索出来的可能性就会变高,未来已在发生。
00
東方既白_
1月前
有人推荐在 Windows 下能让 Claude Code 自动弹提醒的东西吗,就一横条的那种。

虽然我目前的方法很简单粗暴,当其完成后就用内置语音 tts 播报一句:大功告成。😆

成没成不知道,但是感觉好像干了什么了不得的事情。
00
東方既白_
1月前
私以为Harness就是个资本炒作出来的概念,未来的方向也许是某种叫做Agent编排的东西。有点像TEAMS但应该可以自由组合一些。🐉

比如说它应该善于利用工具,知道边界,知道啥能做,啥不能做。为了追踪行为,相关的一些操作需要有审计(devlog类似)。
它应该有自主探索能力,避免和其说太多隐形知识。
它应该有一套信念集,对于违背度较高的,可以自行提问确认。...
当然im还是要的,但与现在的一问一答触发对话应有所不同。

其实我想的是,它能不能自己调超参数,然后在公司的平台上起训练任务,然后得出优化结论。问题定义是明确的,操作是繁琐的,一般这种活会让实习生来干。

就变成了如何用更有效的方式去“教会”这个实习生,并且提前预判所有可能出现的问题。

OPENCLAW 也行可以做,但还是觉得别扭,通过im聊天只是其中一个组成部分。当然研究这个的人肯定不少,也许已有进展我不知道。总之接下来一周可以探索试试看😆
20
東方既白_
1月前
经过几个小时的 vibe,token block explorer 已经出具雏形。起因是我在研究上下文压缩机制的时候,发现其循环的细节比较复杂,再加上复杂任务经常好多轮 Agent Loop 调工具,就很难知道其发送的内容是什么了。

好在 Claude Code 本身有对话落盘机制,直接读取解析就知道每一轮发生了什么(信息还算全,除了没有找到 thinking prompt 以外)。于是就有了这个 Token Trend 图表:

- 蓝色的线是随对话轮次而进行的输入 input token 计数,初始 20k 就是内置+工具prompt,一般都是线性增加
- 中间掉了两次是因为触发了压缩机制
- 另外突然上升的黄线则出现了缓存失效的情况,应该是 prompt 触发了自动压缩机制

这个压缩机制还没完全摸清,估计得结合源码再研究研究。总之作为学习研究是可以的,对于想搞清楚自己的 token 究竟如何被消耗,可能也会有点帮助吧 ~
00