饼干哥哥的个人主页

即刻App年轻人的同好社区

下载

饼干哥哥

55关注1k被关注0夸夸

10 年数据分析师，现在专注 AI 编程与 agent

饼干哥哥

6天前

如何给传统网站加上 Agent，让 AI 操作一切

上一篇提到我在做的 ngsFlow，要加一个 Canvas Agent 操作画布的踩坑经验。

现在跑出来了，关键在网站要把自己的业务能力整理成一套 Agent 可以理解和调用的产品协议。

如果你也在经营网站，想让 Codex 帮你加一个 Agent 让 AI 替用户操作功能，可以参考提示词：

```text
请分析当前网站代码库，并设计一套让 Agent 深度操作网站功能的改造方案。

要求：

1. 不替换现有业务流程、数据库、API 和任务系统，Agent 只作为旁路编排层。
2. 梳理网站现有核心能力，建立统一 Capability Catalog，避免在不同页面、CLI、MCP 中重复维护工具定义。
3. Agent 每次先读取当前页面和项目状态，再生成声明式执行计划。
4. 所有写操作必须支持 dry-run、变更预览、一次确认、原子提交、版本冲突检测和撤销。
5. 付费、删除、覆盖、发布、本地命令等操作增加独立审批和预算限制。
6. 长任务使用持久化 Run/Job 状态，不依赖一个长 HTTP 请求。
7. 执行完成后必须通过确定性条件验证，不能仅凭模型回复判断成功。
8. 建立统一 Trace，记录 run、turn、tool、审批、耗时、结果、失败原因和敏感信息脱敏。
9. 全局 Agent UI 可以常驻，但会话、权限和上下文必须按用户、项目和页面隔离。
10. 保持旧功能和旧客户端兼容，给出分阶段实施方案、公共接口、数据表、核心类型、测试计划和回滚策略。

请先进行只读代码审计，再输出：
- 当前架构与主要问题
- 目标架构图
- 分阶段改造计划
- 需要新增或修改的模块
- 风险与兼容策略
- 可验证的验收标准

不要直接大规模重写代码，优先复用现有业务能力和任务系统。
```

协议整理好之后，接入方随便换：网页侧栏 Agent、本地 Codex / Claude Code 走 CLI 和 MCP 都能用

2 00

饼干哥哥

9天前

复盘一个典型的 Agent Harness 问题

上篇讲到我在开发 ngsFlow AI画布，有个 Canvas Agent 可以帮用户直接搭工作流。但结果很尴尬：它只能稳定完成 3 个节点左右的简单连线，一旦涉及复杂需求，就开始漏节点、连错线、做到一半停下来说"完成了"。

后来专门去读了 Anthropic、OpenAI 的公开实践分享，才发现这是个典型的 Agent Harness 问题。（可以直接拉到文末看解决方案）

Harness 不是模型，而是模型外面的整套执行环境：
Agent 怎么理解产品状态，怎么选择工具，怎么规划步骤，怎么安全执行，怎么验证结果，失败之后怎么恢复。

MCP 解决的是“怎么接进来”，CLI 解决的是“怎么调用”。
但它们都不保证 Agent 能完成复杂任务。

具体到 ngsFlow，问题有三个。
第一，工具重叠严重：多个工具都能建节点，Agent 每一步都要先纠结用哪个，工具越多选择越差。
第二，Agent 要自己管理节点 UUID、自己算坐标、自己维持十几步调用之间的状态，这些恰恰是模型最不擅长的。
第三，没有验证环节，工具调用返回成功，Agent 就认为任务完成了，至于画布上是不是真的有 10 个节点，没人检查。

怎么破？大厂的解法可以总结成 5 个点：

1. 收敛成少量高层工具。
Anthropic 明确说过，把产品 API 原样包成几十个工具是常见错误。应该提供面向完整工作流的工具，比如"创建一条生成流程"，内部的多次操作由产品自己完成。原子工具留在底层，不默认暴露给模型。

2. 让 Agent 提交声明式 Plan，而不是几十次离散调用。

Agent 只需要描述要创建哪些节点、怎么连接、布局目标和完成条件。真实 ID、坐标计算、批量循环和事务提交，都交给确定性的 Runtime。

3. 确认粒度提到计划级。

不要每建一个节点弹一次确认。先 dry-run 展示完整预览和预计费用，用户确认一次，然后原子执行。否则长任务天然被切碎。

4. 复杂批处理交给受限 Code Mode。

创建 10 个节点、批量连线这类任务，让 Agent 在沙箱里调用领域 SDK 写循环，通常比连续调用十几次 MCP 更稳定。

5. 强制验证。

Plan 里内置后置条件：节点数量对不对、有没有断线、有没有重叠。执行完由 Runtime 重新读取状态逐条检查，不通过就进入修复循环，通过才算完成。MCP-Atlas 基准显示，大量失败发生在工具全部调用成功之后——模型提前停了。

一句话概括这套 Harness 的思路：模型负责决定要什么，Runtime 负责保证做对。

3 00

饼干哥哥

10天前

小龙虾，终究只是南柯一梦。

不敢说小龙虾已死。要不然又会有人来骂我制造焦虑了。

但事实上，我身边的圈子都已经没人再提了。

取而代之的，是各种「work」产品：workbuddy、kimi work，qoderwork，还有什么 work？

最近一直在思考，变与不变的边界在哪里？但我觉得一切在应用层上投机取巧的产品，都会被大模型级别的超级产品杀死。

例如 codex

所以我选择一步到位，给团队所有人装上了 Codex，有的甚至配上 MacOS，直接操作一切

例如结合飞书cli 做各种表格文档，甚至搭建多维表格工作流，结合即梦cli 跑 TikTok 视频

接下来所有知名产品都会有 cli作为 Agent 入口。Codex 的生态就能野蛮生长了。

美中不足的是，codex 还没有 ChatGPT 的知识和逻辑推理能力。

但很快 chatpgt 和 codex 会合并，变成超级应用后，一大批做中间管道的产品又会死掉。

而这一切，从 openclaw 过年兴起火出圈至今弥留之际，不过短短 3 个月

5 21

饼干哥哥

10天前

ChatGPT Ads：AI 入口开始变成广告入口

最近一直在看新的海外营销渠道，毕竟我们 NGS 自己就在给跨境品牌做 Reddit

目前我比较看好的两个方向：Reddit Ads 和 ChatGPT Ads。最近问的人明显变多，甚至有朋友说，后台从 ChatGPT 过来的订单比例翻倍了。

再研究，我发现 AI 入口出现后，广告逻辑开始变了。

用户买东西前，他可能直接打开 ChatGPT，问一句：
300 美金以内买什么耳机？
露营用便携电源怎么选？
某两个品牌哪个更适合我？
有什么比 Dyson 更便宜的替代品？

所以 ChatGPT Ads 真正值得关注的地方，是它把广告位放进了用户做决定的过程中。

这和搜索广告不一样。

搜索广告等用户把需求变成关键词。ChatGPT Ads 看的是用户正在聊什么、比较什么、犹豫什么。需求还没完全变成搜索词，广告已经有机会出现。

这也是为什么我觉得它会影响跨境电商投放。尤其是那些需要研究、需要比较、客单价又不低的品类，比如 3C、智能硬件、户外装备、家居小电器、功能型 DTC 产品。

低价冲动品可能还是更适合 TikTok 和 Meta。但如果用户买前会反复问参数、场景、替代品、性价比，ChatGPT 就会变成一个很重要的中间入口。

从目前看到的数据看，这个渠道还早，但已经不是纯概念。

根据《ChatGPT Ads 出海白皮书》，ChatGPT 周活约 9 亿，日均提问量超过 25 亿。广告上线约六周，年化广告收入已经接近 1 亿美元量级。
ChatGPT Ads 的合理 CTR 区间大约在 1.5% 到 6%

行业差异也很明显。

AI 工具 / SaaS 的 CTR 大约 5.4%，CPC 约 1.1 美元；
内容和效率类应用 CTR 约 5.1%；
3C / 智能硬件 CTR 约 2.9%，CPC 约 1.9 美元；
流量加权综合大约是 4.0% CTR、1.6 美元 CPC

再对比一下其他数据。

同样是 AI 对话内广告，ChatGPT Ads 的 CTR 约 3.99%，普通 Chatbot 广告约 0.40%，差不多是 10 倍。CPC 虽然也更高，大约 1.6 美元 vs 0.8 美元，但这里看的不是便宜点击，而是有效点击。

便宜流量不稀缺，能进入真实决策链路的流量才稀缺。很多渠道的问题是点击很多，但用户没有带着问题进来。ChatGPT 反过来，用户先把问题说清楚，广告才有机会出现。

当然，这个渠道还在非常早期。数据样本有限，很多结论只能当方向看，不能直接当稳定 ROI。

但我觉得，越是早期，越值得关注它的广告逻辑变化

下一篇我再专门讲：ChatGPT Ads 现在真正的问题出在哪，以及如果跨境品牌想测试，应该怎么避坑、怎么搭归因、怎么判断它到底有没有带来增量

3 01

饼干哥哥

13天前

现代 AI 产品开发三件套：GUI、CLI、飞书。
最近一直在开发一个 AI 视频产品。

形式上是 ComfyUI 的自由画布 + n8n 的工作流思维，既能灵活组合各种素材，适配不同的视频需求，又加入了变量系统，去解决批量生成、批量测试这些工作流场景。

开发过程中，我一直在思考一个问题：

还需要 UI 吗？

因为同样的功能，Agent 完全可以直接跑了。

迭代到现在，我的答案是：还是得有。

而且，我越来越觉得，AI 时代的产品，应该同时具备三种形态。

第一，是 Web UI。

很多人觉得，有了 Agent，页面就没意义了。

但实际上，页面最大的价值已经不是点按钮了。

一方面，它降低了使用门槛，可视化操作更容易激发灵感，尤其是画布这种东西，很多时候不是你规划出来的，而是拖着拖着就有了新的想法。

另一方面，它更像一个个人 AI 数据中心。

所有生成过的视频、图片、提示词、工作流、变量、历史记录，都沉淀在这里，而不是散落在一个个聊天窗口里。

第二，是 CLI。

我把页面上的所有能力，都做成了 MCP，打包成 cli

除了给页面内置的 Agent 调用之外，本地的 Claude Code、Codex 都可以直接调用。

甚至还能反过来，让本地的 Codex 来操作网页上的画布、节点、工作流。

第三，是飞书。

这是我考虑移动端之后想到的。

怎么才能随时随地用到自己的产品？

做 App，前期完全没必要。

做移动端网页，体验又很蠢。

最后想到，直接在飞书聊天框里操作不就行了吗？

借鉴了张咋啦用飞书操作 Claude Code 的思路，我直接把页面上的能力全部桥接进去。

以后发一句话，就能生成视频、修改工作流、查询素材、调用 Agent。

飞书本身，就成了移动端。

而这三个入口，其实是互补的。

平时直接找 Agent 干活，最大的缺点就是过程看不到，生成的文件也很乱，过几天自己都找不到。

所以，不管是 CLI，还是飞书，最终所有结果都会回流到 Web UI。

视频、提示词、工作流、运行记录、变量、素材，全都自动沉淀进去。

Web UI 负责沉淀数据。

CLI 负责高效率。

飞书负责随时随地。

三者共用同一套能力、同一套数据。

这下就闭环了。

大家觉得靠谱吗？

4 01

饼干哥哥

23天前

开源 skill：一句话把图片转成可编辑pptx
昨天开源了把图片转成 psd 的 skill
我把GPT-image-2生成PSD的能力打包成了Skill，免费开源

评论区就有同学问 ppt可以吗？
可以！
甚至一句话就让 codex 把图片拆成 57 个可编辑节点的 pptx文件（图一）
经过一晚的打磨，现在开源出来了
依然放在 bggg-skills下
github.com

叫 bggg-creator-image2ppt，支持把 png/jpeg 图、以及 html、svg格式的 ppt 图转成 pptx 文件。

逻辑跟 image2psd 类似，同样要用到 codex 的 imagegen 能力，复刻组件图片后，再重新组成可编辑文件，但对文本框等的识别要好很多。

欢迎 stars 支持👏

这个 skill 对于日常要做分享的人来说非常有用，例如我自己现在ppt页面都是 nano banana 跑的，跑完手动再贴进 pptx文件里，但要是遇到有问题的、或者要改个标题啥的，就要重跑，很麻烦。

现在有这个skill 后，直接局部改一下就完事了。

问为什么不让 codex 直接生成 pptx呢？
因为这样的想象力大大受限了，只能按以前代码的方式去跑一些固定模板、老套版式

现在等于整个做 ppt 的逻辑都变了，先用image2 放大想象力做漂亮 ppt 页面，再转成 pptx处理细节

感兴趣的都可以去跑一下，目前仅支持 codex里用。

总之，对codex➕imagegen 潜力的开发还在持续。。。

3 00

饼干哥哥

27天前

创业复盘：2026 年怎么做 AI Native 公司？

饼干哥哥转眼出来创业 3 个多月了。
但有个很大的问题：我们只是一家「传统公司很会用 AI」
过去几个月团队管理等问题暴露后，我才下定决心要重新做成基于 AI设计的公司

正好今早刷到 YC partner Diana Hu 讲的《How To Build A Company With AI From The Ground Up》，讲AI 如何重构公司的组织形态、流程系统和岗位分工。

先说结论。
AI Native 公司，不是“人在原流程里用 AI 工具”，而是把 AI 变成公司的操作系统，让每个流程、决策、结果都进入一个可查询、可反馈、可自动优化的闭环系统。

第一，不要把 AI 只理解成“生产力工具”。
传统说法是：AI 让工程师写代码更快、让员工处理任务更快。
但 Diana 的判断更激进：AI 带来的不是 20% 或 50% 提效，而是让一个人能完成过去一个团队才能完成的事，甚至产生以前根本做不了的新能力。

第二，AI 应该成为公司的“操作系统”。
她的意思是，公司里的工作流、决策、会议、销售、工程、招聘、运营，不应该散落在人的脑子、微信群、邮件、口头同步里，而应该全部进入一个智能层。
这个智能层持续读取信息、理解上下文、给出建议、推动执行。

第三，公司要从 open-loop 变成 closed-loop。
传统公司是开放环：做决策、执行、开会汇报，但很多结果没有被系统化记录，也不会自动反哺下一次决策。
AI 原生公司要做闭环：每个重要动作都产生结构化数据，AI 能读到结果，并持续改进下一轮流程。

第四，组织要变成“可查询组织”。
她建议公司要尽量减少私聊、邮件和散落信息，把会议记录、Slack/Linear/GitHub、收入、销售、工程、招聘、运营等数据都变成 AI 能查询的资产。
这样 AI 才不是外挂工具，而是公司中枢。

第五，传统中层管理会被压缩。
组织判断我感触很深：过去很多管理层的价值，是帮公司压缩信息、传递状态、协调事项。但如果 AI 能做信息路由、任务协调、进度总结和异常提醒，组织层级会被压扁。
未来更重要的角色会变成三类：
IC，也就是直接做事的人；
DRI，也就是对结果负责的人；
以及真正懂 AI、能亲自设计系统的 founder

第六，衡量公司效率的指标会从“人数”变成“token 使用量”。
AI 公司不应该盲目扩人，而应该最大化 AI 的调用能力。高 API 账单不一定是坏事，它可能是在替代一大堆传统人力成本。
换句话说，未来公司要问的不是“我们有多少员工”，而是“我们把 AI 杠杆打满了吗”

接下来会按这个去重新实践。
感兴趣可以催更👌

4 11

饼干哥哥

28天前

MiMo罗福莉的3.5小时访谈，讲了 10个观点
01 明明Claude Code更强，OpenClaw为什么反而火了？
开发者喜欢能改的东西，而cc的源码只能等再次泄露了。罗福莉说，改OpenClaw，是非常非常激发人的创造力的。看着一个工具在自己的手上不断进化，确实是很有成就感的事情。

02 一套好的Agent框架，能让中层模型在85%的任务上发挥出顶尖模型的水准。
这就是Harness工程做的事，用框架补模型的短板：记忆、工具调度、主动性。罗福莉把没有专门训练过的小模型接进OpenClaw，发现能完成超出预期的任务。

03 市场上大部分Multi-Agent是伪的。
速度快了，成本低了，但任务能做到的上限没有因此突破。多加几个Agent，不等于能做更难的事，更多时候只是把事情更复杂化了。

04 A社虽然很可恶，但它仍然是行业天花板。
很长一段时间，大家觉得Anthropic做Context Engineering是因为模型不够强，是省成本的无奈之举。Context管理、Skill Fold、Agent架构，现在回头看都是提前布局。

05 连AI研究员的工作，也开始能被Workflow化了。
罗福莉原话：「我之前认为我们自己做的工作足够有创造力、不会被Skill化。但我现在发现，它竟然也能。」这意味着AI也可以训练更强的AI了。

06 1T参数是进入Agent时代的门槛，不是终点。
接近Claude Opus 4.6水准的Agent能力，1T是最低要求。国内目前迈过这个门槛的有Kimi、MiMo、DeepSeek还有几家。但上一个时代的成功不代表下一个时代的领先。接下来考验谁反应更快。

07 环境比经验重要。驱动团队靠的不是管理，是愿力。
罗福莉倾向于招本科生：「他们的灵活性和适应程度，都感觉没有被污染」。作为初创团队，我们也是同样的判断，更期望找到「新脑子」。一方面是足够热情，你得先相信这件事值得做，才能真的做好。另一方面很残酷，从某种程度而言，他们足够省钱。

08 Code在每次范式转变里，都是最优雅的路径。
AI经历了三次范式：Chat、Reasoning、Agent。每一次，Code都是最核心的训练材料。罗福莉说，每次赛场换了，从Code出发永远是最稳的突破口。

09 算力比例从3:5:1变成了3:1:1。
Chat时代预训练吃掉大头。现在后训练的算力投入已经跟预训练持平，顶尖团队是1:1。重心从「把模型训大」转向「让模型真的能完成任务」。

10 两年内实现AGI。现在进度20%，今年能到60%-70%。
她的判断：工作模式会先被颠覆，生活模式慢一步。工作先变，是因为工作直接产生经济价值。而生活要等更多机器人进入现实世界，才会真正跟着变。

3 01

饼干哥哥

28天前

codex之后，开发AI 应用的逻辑全变了！

最近在跑 seedance+TikTok 项目，用 codex+skills 跑通了各种逻辑

之所以用 codex，是因为 agent 能自主去识别做判断，尤其是 $computer-use 和 @CHROME 这两大杀器，能帮我识别TikTok 红人是否符合我要求，符合的话，浏览一遍首页决定下载哪些视频用作我后续流程

但在纯 codex 里跑就很慢，无法实现日产白条的效果，所以接下来需要考虑稳定量产的技术栈

逻辑是，把原先需要「人」来做决策的，就走 codex agent来判断；一些流程化的步骤就在应用来跑，可以直接共享 skills 里的脚本

最开始还在想用 n8n来跑，发现它真的死了。。我直接让 codex 开发了一个桌面应用叫 NGSPilot，是内部在用的

还内置了一个 AI画布。。直接手搓了一个 lovart，并且可以接入 comfyui 或者 running hub 的流程

我选择开发桌面应用的还有一个重要原因就是。。直接把 codex通过 app-server 的形式接进来了。。也就是说我应用里就能用 codex 原生的 computer-use、生图等能力。非常顶

相当于我把原先多个 skills 应用 GUI 化了。而且还用的 codex 的额度。。这谁顶得了？？

这就是我开头说的开发应用的逻辑全变了。

我要做的，就是关注好我自己的业务逻辑，然后把业务做成一个harness，里面套的是海外顶级的应用能力。。

以后，codex 越牛逼，我的应用就越牛逼。。

谁还自己去开发 agent 啊？？

况且，今天 Codex 上线手机端后，直接又把 Openclaw杀死了。。

我之前设计了一个项目叫「跨境电商今天卖点啥」

逻辑是让 Openclaw 自己到亚马逊、TikTok 等各大榜单去找今天的「异常值」然后再到Reddit 等平台去搜和做 voc 分析理解为什么它会火

再把结论给到 codex 去更新网站，并且同步到 github vercel

还用上了 codex 的 $imagegen 的能力，每天生成不同的 UI图来更新网站

所以每天打开网站就是一个新的页面、新的内容，开盲盒一样非常有趣

这套逻辑是想我在外面手机端看到网站有什么问题的时候，就跟小龙虾说让它去改就好。但现在 codex 出移动端，我就不用了。。

这种手机上命令+网页端直观可视化的逻辑，是我接下来开发新项目的趋势。

昨晚，我让 codex 通过 computer-use 来操作 ngspilot的 debug，它全自动开发、测试、修bug，搞了 4 个小时，就弄好了。

按前面的逻辑，可以直接把开发的过程可视化到网站上，远程的时候，看手机就知道本地开发进度和发命令了

人就该逛街逛街、好好享受生活！

2 01

饼干哥哥

1月前

原来 AI 是有斩杀线的
200 美金的 pro 会员，斩杀 20 美金的用户。非常明显。

例如写文章，
以前我20 美金的时候，来来回回改几遍，最后还得自己写很多
现在用 ChatGPT 5.5 Pro，或者 opus 4.7 一次过，并且能获得几千上万的阅读

例如用 Seedance 跑 TikTok
以前想尽办法绕过官方限制（真人、NSWF），原来买大套餐就能一键实现了。。

所以我现在越来越觉得，AI 不是来改命的。

AI 是给本来就厉害的人，增加垄断的。

普通人用 AI，很多时候只是少动脑。以前不会写，现在更不会写；以前不会判断，现在更不会判断；以前还有一点笨办法，现在连笨办法都懒得试。

时间久了，前额叶真的会退化。

但业务专家不一样。

他知道什么是好，什么是坏，知道怎么提需求，知道结果哪里不对，也知道怎么把 AI 生成的东西放进真实业务里。

这种人用 AI，不是提效一点点，是十倍、百倍，甚至万倍放大。

所以 AI 时代的机会，其实不是平均分给普通人的。

它更像是把已有积累重新放大一遍。

有经验积累的人，用 AI 把经验变成规模。

有技术积累的人，用 AI 把技术变成产品。

有财富积累的人，用 AI 买更好的模型、更大的套餐、更快的算力，然后继续拉开差距。

以前穷人和富人的差距，是信息差、资源差、人脉差。

现在又多了一个 AI 差。

所以很多人还在研究怎么白嫖，别人已经在用最贵的工具打穿赛道了。

所以，再穷不能穷 AI。

因为 AI 不是玩具，是新的生产资料。

你不用，或者用最差的，最后不是省钱，是把自己放到了斩杀线下面。

4 00