即刻App年轻人的同好社区
下载
App内打开
行小招
96关注340被关注0夸夸
正在主导 1500+人的中型组织转型 AI native 企业
记录关于AI 的一切闪念、想法、洞察
置顶
行小招
6月前
prompt 的撰写技巧只是“术”的层面,不能说不重要,但是更底层的东西“道”,“道”是你的认知层级,思维方式,和看穿本质的能力。“问的问题”本身是最重要的,你问出什么问题,远比你怎么问更致命。因为提问本身就暴露了你思考的天花。

相当于武功里面的,招式 vs 内功,张无忌学的太极拳为啥招式都忘记了,打出来,还那么厉害?

举个例子:
1. “帮我写一篇中国咖啡外卖市场的调研报告。”
2.“我想写一篇关于中国咖啡外卖市场的调研报告。请帮我分析一下市场规模、主要玩家(瑞幸、星巴克、Manner)的商业模式和优劣势,并预测一下未来的发展趋势。”
3. 见图
00
行小招
2天前
这两天做 Agent 开发选型,一个很强的体感是:Agent 的主战场正在从 Python 转向 TS,

更准确地说,变化不只是语言迁移,而是这一代 Agent 的核心能力开始从“模型调用”转向“执行系统”,

过去很多 LLM 应用主要围绕 RAG、Prompt 编排、embedding、数据处理和模型服务展开,所以 Python 是天然主场,

但现在的“执行型 Agent ”要进入真实工作环境,要接 CLI、IDE、文件系统、terminal、权限审批、流式事件、插件系统、任务恢复和多轮执行,

这背后就是近期火爆的的Agent Harness,

Agent Harness 可以理解为包在模型外面的一层执行底座:它负责上下文管理、工具调用、状态保持、权限控制、任务循环、错误恢复和人类审批,把一个只会生成文本的模型,变成一个能持续推进任务的软件执行体。

这也解释了为什么 Claude Agent SDK、Codex SDK、OpenCode、Pi 这些新一代 Agent 框架越来越偏 TS,

TS 适合做类型清晰的 SDK 边界,Node 适合处理事件流、子进程、CLI、IDE Web UI,npm 生态又方便快速分发插件和工具,

再叠加几家领先 AI 公司早期产品选型带来的路径依赖,文档、示例、插件、社区贡献都开始向 TS 聚集,

所以Agent 从模型应用走向任务执行系统之后,台前运行层的技术栈发生了迁移,

Python 还会继续留在模型层、RAG、数据处理和评测体系里,但执行型 Agent 的宿主层,TS 正在变成更自然的选择,

Node 这波也挺有意思,绕了一圈,居然在 Agent 时代又杀回来了,

技术没有高低,但生态有先后,

这一次,Python 可能真的要从 Agent 框架的台前,退到幕后了!
00
行小招
6天前
我们这一代的竞争,本质上还是和自己的同类,自己同等段位的人类竞争,无论怎么加持 AI,

而我们的孩子呢,却极有可能变成直接跟 AI 竞争,而不是那个时候的人了,

如果真的是这样,对孩子的改怎么教育,还去报这么多的培训班,把成绩提高点?
00
行小招
7天前
上周刚发表的一篇论文 WildClawBench 的评测结果指出,同样的模型在不同 harness 下的效果差异非常大,如下图,

开源 Agent 框架对开源模型的适配非常好,最差的就是 claude code 你看看身边有多少使用 claude code Agent,把模型更换成国产开源模型的,看到这个是不是得哭了,

当然,gpt-5.4 codex 的加持下分数还是最高的,这里可以推演到 Opus4.7 claude code 下应该分数也不低,只有对模型足够了解,且为模型做充足的适配, 效果才能好!
00
行小招
10天前
codex 的用户,不需要图片理解的编码任务,优先使用 5.3-codex-Spark xhigh ,速度快到令你怀疑一切!
20
行小招
13天前
我们都需要转型,成为中间的那个“人才”,这样才有未来!
00
行小招
14天前
今年前几个月 AI token 使用量拉出来看了一眼,还是挺震撼的,

1 月份还只是几亿 token,4 月直接冲到接近 30 亿,折合 API 费用也跟着接近 5000$(这个角度看订阅会员是真的值),Codex 、Claude Code、OpenClaw 几个入口加起来,基本就是我现在日常的“AI 油耗表”,

但我越来越觉得,token 这个东西不能简单理解成“花了多少钱”,

它更像是一个人把多少真实工作交给 AI 的痕迹,写代码、查问题、做分析、改页面、沉淀 skill、跑自动化,每一次调用背后都是一次工作流的改造,都是人机协同的深度磨合,

以前用 AI,像是多了一个聊天窗口,

现在用 AI,更像是多了一些协作伙伴,各自有分工,一同完成日常任务,

所以真正产生复利的,可能不是谁 prompt 写得好,谁订阅了哪个会员,谁的 token 量用得更高,

而是谁能用这些 token,换回更多思考时间,慢慢形成自己的工作流、判断框架和自动化资产,让 AI 使用变成一个正向循环,

这都需要时间积累,所以还是那句, 时间才是最贵的 token,早一点开始认真磨合,本身就是优势。
00
行小招
2月前
ChatGPT 今天出了 $100 Pro 5x 档位,GPT 5.4 在后端研发领域,尤其是疑难杂症、复杂度高的问题、整个仓库级别的排查、跨多个代码仓库的问题定位和整理上,一次成功率早已超过 Opus 4.6,

每天干活的体感,xhigh 模式下解决疑难杂症,那种深入程度和稳定性,区别蛮大的。

ps: 5.31 日之前,10倍额度
00
行小招
2月前
Agent memory 这个词已经烂大街了,但体感下来,十个人聊 memory,八个人说的不是同一件事。

我梳理了一下,市面上说的"memory"至少有四层意思,混着聊就是口径不一致:

一,短期记忆:最近 n 条对话 history,所有 AI 产品自动带的,你在一个会话框里聊过的东西模型都知道,这不叫"有记忆",这叫"聊天历史"。

二,固定背景:你的名字、偏好、项目上下文这些不变的东西,CLAUDE.md、ChatGPT Custom Instructions、OpenClaw user.md 解决的就是这个,手动维护或者 Agent 帮助更新,一次写好长期生效。

三,自动沉淀:聊了几十轮之后 context window 撑不住了,模型该自己提炼有价值的信息存下来,关键时刻能调出来,Claude Code project memory、OpenClaw memory.md 走的是这条路。往企业级推,成百上千用户的记忆需要存储、检索、遗忘、冲突处理,这就是 mem0 这类中间件干的事了。

四,完整上下文:Agent 长时间自主运行,产生的文档、代码、工具调用结果,已经不只是"记忆"了,是整个上下文的结构化管理,字节开源的 OpenViking 定位在这一层,用文件系统范式统一组织 memory + resource + skill,思路比单纯做 memory 大一截。

大部分人讨论 memory 的时候其实卡在层次二和层次三之间,真正拉开差距的是层次三的自动提取、存储、检索能力,这才是 Agent 从"工具"变"同事"的分水岭,而这里面含有大量的工程化的细节要去做。

ps:企业做 Agent 选型可以看看 mem0,开源轻量级,LOCOMO benchmark 上比 OpenAI Memory 准确率高 26%,定位是 Agent 和存储之间的中间件层,支持广,插上就能走不错的 memory 能力。
00
行小招
2月前
模型能力的 scaling 远没有到头,“Opus 天花板”这个假设已经被打破了,你看 Claude Mythos Preview ,碾压级别的存在,人类编程可能不存在了!
00