東方既白_的个人主页

即刻App年轻人的同好社区

下载

App内打开

東方既白_

67关注95被关注0夸夸

東方既白_

17天前

《Hertress》太有意思了，从未玩过这样的解谜游戏，通过移动物件，使答案自然浮现。
试玩版体验 treespuzzle.com

1 01

東方既白_

22天前

今天第一次知道 EA (Executive Assistant) 这个角色，说人话就是避免 CEO 因不重要的活动分散注意力和确保领导者充分利用有限的时间。
（来源：Michael E. Porter，Nitin Nohria 《CEO 的时间管理》, Harvard Business Review, 2018）

同时，把控一个系统，我更倾向于认为它是动态的有惯性的，会自己演化。相比“管理工具”更需要“调谐工具”。
（有一种比喻是可以想象成《RimWorld》中的小人们，有自己的技能条，会自己干活，你只能微调他们）

其中重要能力，是快速感知偏差 + 快速微调，包括在周边建立一系列护栏，尽可能减少系统出轨，至少在其偏离轨道时能有所预警。
（这个护栏的理念，又和 Harness 不谋而合了，来源：mitchellh.com ，Step 5: He calling this "harness engineering." It is the idea that anytime you find an agent makes a mistake, you take the time to engineer a solution such that the agent never makes that mistake again.）

只是这里把 agent 犯错引申为多人系统，人们已经在为 agentic engineering 设计了那么多护栏，那么对于真实系统中的管理问题呢？

1 00

東方既白_

23天前

挺酷的，这种前端效果估计以前研究一天也搞不出来，所说即所得。

0 00

東方既白_

29天前

继续学习 build in public ，周末做了个监控仓库分支的小玩意儿，分享下我是怎么做的：

背景是这个repo迭代了一年多，光MR数编号就有1000+，接手时分支有270个（理想正常情况下应该是几十个）

这里最大的反事实是，虽然我已经想好大概代码架构了，但是在聊的前十轮我都要求其[不要编码]，结果这种限制反而激发了其能力。

从开始到做出第一份报告，中间耗时大约3小时，主要是在获取数据的技术问题上卡了很久。基本流程是先git拿所有远程分支，然后调用mcp拿关联的mr信息，然后llm根据讨论好的方案出报告。

跑完第一遍后，我让其整理sop到文件中，然后/reset清除记忆重新测，这是一个必要的步骤，在这个过程中测试流程稳定性。但神奇的是，本来应该要llm分析的部分，它开始写个脚本试图将这个过程结构化。

这是一个很有意思的过程，优点是变成脚本会更可控，也更加省token的方式，而且不容易幻觉。缺点自动生成的版本是缩水的，少了好几个章节。

最后我让其参考第一版都补上了缺失部分，陆陆续续加了一些又花了3个小时。可以想象，如果我上来就要求其写代码流程，结果一定是别扭的，后续迭代花费时间可能更长。

最后在openclaw配了个定时任务，让其自己触发，更新前端+推送，后面就自己run起来了。

全流程迭代总花费6-8小时。

图1：更直观的分阶段全景（我自己设计的）
图2：报表目录完整版（根据实际情况加）
图3：整体的workflow（浓缩下来其实就1个md和4个script）

2 01

東方既白_

1月前

写得不错，尤其是点出了候选空间和决策空间的差异，而AI更多扩展前者。
对于真实世界的决策问题，弄不好会背锅那种，AI 能提前收集一大堆信息，并用其模型能力处理掉一部分，但仅是一部分。就知识而言，可有四种层级：
- 知道自己知道
- 知道自己不知道
- 不知道自己知道（暗知识，经验等）
- 不知道自己不知道

第一象限本来就有，ai 做了就是如做。第二象限是ai可以帮忙的，已知问题在哪儿，先前可能因为忙/成本高/麻烦等没管，这时确能提效。第三象限是ai容易fail的地方，反而是需要人来补充大量项目暗知识，通常来说补充后会带来能力提升（也看到一些showcase）。第四象限才是真正的问题，如果自己都不知道这里有问题，就无法要求ai能自行覆盖之，特别是各种auto approval情形下。

第四象限暗藏的风险，能提前规避多少，取决于很多东西，因为它不是一个光靠想就能想通的玩意儿。但结合“边构建边探索”的循环，以及将更多暗知识摆到台面上，或许真的照亮第四象限的迷雾。

从无限候选空间到有限决策行动：从兰道尔原理看 AI 时代的真正约束

0 00

東方既白_

1月前

刚才和 opus/sonnet/glm-5.1 一起进行了对一个神经网络模型权重的有效性分析，最终沉淀出一个19页的pdf报告，整体断续可能花了2-3个小时吧。

真的能够根据现象进行推测，前提是你得真的理解分析了啥，并提出关键问题。反正不管假设对不对，总是能通过对比实验，拿到结论的。

难点在于定方向，现在的 AI 还是缺少方向感，得指个路，动一下，当然现在已经可以动非常久了。那也意味着提供方向指引，[杠杆效应｝在增加。

也就是这种驱动力，还算是当今人能优于 AI 的一个点。但如果未来模型迭代出“自驱力”这个东西呢，那可能真没人类什么事情了。

那未来的稀缺能力之一，就是你的“自驱力”得比过去高出一个数量级。现在就开始在空间/时间尺度上培养吧～

ps. glm-5.1 还是有点东西的，thinking很重，哐嘡给我干一堆图表，后面不用它是因为太卡了...🤣 几分钟没响应。当然 opus 肯定是大哥

2 00

東方既白_

1月前

在编写框架代码如此方便的当下，完全可以从零构建起适合你自身业务逻辑的一套流程，来近似n8n这种效果。

以前大家习惯于用网络请求做llm call（层级1）但完全可以用网络请求做agent call，有点像调用只一轮回复的subagent，但它可以是异构的，其拥有一个独立沙箱和专门设计的工具/skill/mcp等等。（层级2）

又因为可以将这个agent call做成webhook，因此就可以在后端调用，或者做成前端给用户触发，因此这个前后端系统就拥有了一个更高的语义层次。比如原本的agent call是分析一组实验的运行状况，当系统已沉淀了100个这样的agent call运行结果时，就可以做更高层次的对比分析，风险诊断。这个前后端系统就是层级3

当然也可以把这个层级3的后端暴露，做成cli，mcp，skills 等任何形式，让其同时面向人类用户和agent。

接着在你预先定义的高层次任务在进行归纳总结，将层级3作为输入，抽象到这一步，基本上就是管控视角了。

这种层级化设计，兼顾了确定性规则和不确定的llm分析，感觉是很难被蒸到某个具体的skills里的。如今构建这种系统的时间成本一直在降，这种流程被探索出来的可能性就会变高，未来已在发生。

2 00

東方既白_

1月前

有人推荐在 Windows 下能让 Claude Code 自动弹提醒的东西吗，就一横条的那种。

虽然我目前的方法很简单粗暴，当其完成后就用内置语音 tts 播报一句：大功告成。😆

成没成不知道，但是感觉好像干了什么了不得的事情。

0 00

東方既白_

1月前

私以为Harness就是个资本炒作出来的概念，未来的方向也许是某种叫做Agent编排的东西。有点像TEAMS但应该可以自由组合一些。🐉

比如说它应该善于利用工具，知道边界，知道啥能做，啥不能做。为了追踪行为，相关的一些操作需要有审计（devlog类似）。
它应该有自主探索能力，避免和其说太多隐形知识。
它应该有一套信念集，对于违背度较高的，可以自行提问确认。...
当然im还是要的，但与现在的一问一答触发对话应有所不同。

其实我想的是，它能不能自己调超参数，然后在公司的平台上起训练任务，然后得出优化结论。问题定义是明确的，操作是繁琐的，一般这种活会让实习生来干。

就变成了如何用更有效的方式去“教会”这个实习生，并且提前预判所有可能出现的问题。

OPENCLAW 也行可以做，但还是觉得别扭，通过im聊天只是其中一个组成部分。当然研究这个的人肯定不少，也许已有进展我不知道。总之接下来一周可以探索试试看😆

1 20

東方既白_

1月前

经过几个小时的 vibe，token block explorer 已经出具雏形。起因是我在研究上下文压缩机制的时候，发现其循环的细节比较复杂，再加上复杂任务经常好多轮 Agent Loop 调工具，就很难知道其发送的内容是什么了。

好在 Claude Code 本身有对话落盘机制，直接读取解析就知道每一轮发生了什么（信息还算全，除了没有找到 thinking 和 prompt 以外）。于是就有了这个 Token Trend 图表：

- 蓝色的线是随对话轮次而进行的输入 input token 计数，初始 20k 就是内置+工具prompt，一般都是线性增加
- 中间掉了两次是因为触发了压缩机制
- 另外突然上升的黄线则出现了缓存失效的情况，应该是 prompt 触发了自动压缩机制

这个压缩机制还没完全摸清，估计得结合源码再研究研究。总之作为学习研究是可以的，对于想搞清楚自己的 token 究竟如何被消耗，可能也会有点帮助吧 ~

1 00