即刻App年轻人的同好社区
下载
App内打开
饼干哥哥
55关注1k被关注0夸夸
10 年数据分析师,现在专注 AI 编程与 agent
饼干哥哥
1天前
Codex 功能上新,彻底把 RPA 杀死了
OpenAI Codex 上了 Record & Replay,目前仅支持 macOS

用户在电脑上操作,把一个流程完整做一遍给Codex看,它会把这次演示生成一个可复用的 Skill。下次再做类似任务,只需要替换文件、标题、日期范围、issue 内容这些输入,Codex 就能按这个 Skill 执行。

这功能意味着 Codex 已经彻底打穿传统 RPA

我记得以前到用RPA 的时候,销售卖力给我们介绍这种“录制流程,自动回放”。但 RPA 录的是动作:点哪里、填哪里、下一步去哪。

Codex 学的是流程:这个任务什么时候触发,需要哪些输入,执行中怎么判断,最后怎么验证。

这是代际差。

Codex 已经覆盖了传统 RPA 200% 的场景

100%,是 RPA 原本擅长的重复流程:报销、填单、下载报表、建工单、跨系统搬数据。

100%,是 RPA 原本很痛苦的场景:复杂网页、桌面软件、内部系统、界面变化、半结构化输入、视觉判断、异常处理。

例如操作Photoshop,传统 RPA 往往只能靠坐标、快捷键、图像识别、OCR 去硬做。界面一变、分辨率一变、面板一折叠,流程就要改。

Codex Computer Use,可以直接看屏幕、理解界面、操作桌面应用。它不是在机械找按钮,而是在理解任务目标。

RPA 是流程自动化。
Codex 是任务自动化。

这才是关键差别。

当然,RPA 短期不会消失。它最后的护城河不是技术,而是存量:大企业已经接入了,权限、审计、账号、流程都跑起来了,迁移成本很高。

但新企业呢?

今天一个公司从零开始做自动化,还会优先买 RPA、招 RPA 工程师、维护一堆脆弱脚本吗?

我觉得很难。

建议 OpenAI 应该直接收购一家 RPA 公司。不是买技术,而是买它沉淀下来的企业场景、流程模板、连接器和客户资源,然后原地做成 Codex 的插件和 Skill 市场。

那才是终局。
10
饼干哥哥
1天前
Anthropic怕是已经被自己反噬了
最爱讲AI安全的 Anthropic,偏偏因为安全问题翻车了。

之前 Mythos 一直藏着掖着,只给少数合作方看。最近,Anthropic好不容易将Fable 5 版本推向市场,主打更可控、更安全。结果Fable 5也是发布没几天,美国政府一纸出口管制下来,谁都用不了。

真正好笑的地方在于,问题不是竞争对手捅出来的,而是被自己的金主爸爸亚马逊先举了手。

但从商业逻辑看,这也不是单纯背刺,更像亚马逊的自保。

毕竟,亚马逊更大的身份是云服务商。Anthropic 的模型如果被证明存在不可控风险,牵连的是 AWS、政府客户、企业客户的合规信任。

也就是说,平时可以一起讲融资、讲算力、讲生态、讲增长。但风险一旦外溢到国家安全层面,资本关系就要让位于风控责任。

这才是最尴尬的地方。

一个靠安全叙事起家的公司,最后是被自己的安全问题砸到脚。

更麻烦的是,这事发生在 Anthropic IPO 的前夕。

IPO 前,市场最想看到的是收入增长、模型领先、安全合规三件事同时成立。偏偏 Fable 5 这次出事,把三件事全搅在了一起。

你越说模型强,监管越要问边界在哪。

你越说自己安全,外界越会追问为什么连金主都不放心。

你越接近上市,资本市场越会重新计算一个问题:如果旗舰模型随时可能被政府叫停,那未来收入和估值到底该怎么讲?积攒许久的“安全人设”,还能换取信任吗?

再看创始人 Dario 这个人,其实也很有意思。

从SVAIL实验室到 Google Brain,从 OpenAI 再到自己出来做 Anthropic,他几乎每一步都踩在 AI 产业爆发前夜。你可以说他看得准,但也可以说,他非常清楚什么时间点该站到什么位置。

更微妙的是,Dario 过去多次对华强硬表态,也基本都发生在融资、政策和估值的关键周期里。禁用中资、渲染技术外流、把芯片问题上升到国家安全叙事,本质上都在给 Anthropic 换取美国政界和资本市场的信任。

但现在反噬来了。

一边呼吁全球警惕 AI 失控,一边自己推出最强模型冲商业化;一边高举安全大旗,一边被金主举报、被白宫管制;一边想用安全叙事换取 IPO 前的高估值,一边又在安全问题上支支吾吾。

说白了,Anthropic 不是不会讲安全故事,而是这次故事讲脱了。

Fable 5 被停掉,只是表层。

真正掉下来的,是 Anthropic 过去几年最值钱的那层信任。
00
饼干哥哥
2天前
最窒息的不是200 美金太贵,而是根本花不完

上一篇我说 AI 有斩杀线,其实: AI大会员真正的门槛,不是付费,是你有没有能力把它用完。

如果只是拿来写文章,或者开发一个小工具,到周末一看,额度还剩 80%,不窒息吗?

谁的钱都不是大风刮来的,这问题在于没有一个持续消耗 AI 的业务系统。

说一下,我现在是怎么用 Codex 的。刚好今天在把我多台设备配在一起,Codex 内置的远程管理能力太好用了!!
现在我有 4 Mac。
1 台用来落地 AI Native,跑 ngs AI Center Gateway,里面直接把 Codex 能力共享出来,整个团队团队一起用。
1 台专门做 TikTok 视频批量生成服务,多并发,一天至少生成 100 条视频,而且不是无脑生成,是 AI 要接入内容判断,先判断选题和脚本,再生成 image2,再生成视频,再检查结果,不对劲就继续改。
1 台我自己随身带,远程连接上面两台的 codex,平时还开发项目。
还有 1 台专门连 Claude Code,做调研、规划、拆任务,然后安排其中一台 Codex 干活。

如果快到期了,想一次性烧大量额度,就要跑长任务,而且是 8 小时以上的长任务。

比如做一个产品,不要上来就让 AI 写代码。而是让 AI 调研用户、竞品、功能边界、数据结构、页面交互、验收标准。再把这些整理成文档,丢给 Codex。
Codex 先读项目,不准改文件。读完写计划。计划通过后再执行。执行完自己跑测试。测试失败,自己看日志,自己修。
修完继续跑。每一轮都记录改了什么、为什么改、下一步是什么。

不过,现在也不用这么复杂了, AI大厂都在帮我们消耗额度。
Codex新出了「追求目标」的功能,就是你设置一个目标,它不跑出来誓不罢休。
有点磨平技术差的意思了。
当然,前提是你得有目标,有系统,有验收标准。不然它再努力,也只能围着你的空需求转。

再比如我自己用 Seedance TikTok,直接在 Codex 里跑。
人物、场景、动作、镜头、商品卖点、字幕节奏、前三秒钩子、结尾转化,都可以做成变量。
自由组合,批量跑 10个提示词。
跑完自己检查,人物稳不稳,商品清不清楚,节奏适不适合 TikTok,画面有没有问题。
不对劲就继续改,继续跑,直到达到目标。

所以大会员真正买的不是答案,是持续试错的能力。
没有大会员,怎么用得起这种跑法?

还是那句话,再穷不能穷 AI。
但更重要的是,再穷不能穷系统。只买会员,不搭系统,最后就是每个月续费一次焦虑。有系统的人,额度不是用来省的,额度就是产能。
11
饼干哥哥
3月前
Vibe Coding(Claude code、Cursor、Lovable) 把原本8周的开发周期压缩成2天
现在,同样20倍的加速在营销圈上演—— Vibe Marketing:

一个人➕n 个AI Agent和自动化工作流,几小时就能把营销想法落地了,杠杆效应大到离谱。

过去16个月,我正是运用这套Vibe Marketing的打法,在小红书K12这个高度竞争的领域,从0做到了七位数营收。

今天我不会讲内容怎么创作,而是会分享我如何构建一个由AI驱动、能管理50个账号矩阵的自动化营销系统的复盘。

在操盘过几个小红书项目后,我发现小红书与其他平台有一个根本不同:本质上是一个基于“内容模板”和“信任节点”的推荐系统。 这意味着,一个能被验证成功的笔记范式,可以被大规模地、系统化地复制,并且用户对“素人感”内容的信任度极高。

这对我来说是一个巨大的机会。它不是一个需要持续内容创新的平台,而是一个极其适合用工程化、系统化思维来获取流量的平台。

但我资源十分有限,充其量算是野生团队,无法像“正规”公司那样去规模化复制。我们唯一的出路是用系统对抗系统,用极高的效率和杠杆去竞争。

这正是我后来理解的Vibe Marketing的核心:一个核心主理人,利用AI Agent和自动化工作流,构建一个能替代传统营销团队的增长引擎。

这篇文章,就是复盘我如何从0开始,在小红书平台上,构建并迭代我的Vibe Marketing系统的全过程:

无AI的手工作坊:手动验证期
Vibe Marketing的初探与阵痛:工具探索期
成熟的“人机协作”系统:系统成熟期
Image第一阶段:0-10万 | 手工作坊,跑通内容模型
核心目标: 手动跑通“内容→流量→私域→转化”的最小闭环,作为后续AI落地的「知识」

这个项目的起点,是我的合伙人有个朋友本身就在做家教,客单很高但不会运营。我加入后,我们三人形成了项目的初始团队。

0 接手一个项目,我认为没有必要去做过度的调研分析,我的逻辑就是「干中学」: 先找一批账号来关注,然后去刷他历史的爆款内容,并从中总结出爆款的逻辑后,做「像素级模仿」。

有人可能会说:不就是抄吗?

你别说,还真不是抄,抄是形式上的拙略模仿,短期能获得流量,但不见得转化率高;像素级模仿是内化后的创新,有流量的同时,也能建立垂直IP,确保转化率。

也就是说:模仿的重点不是文案,而是爆款笔记底层的“内容结构”和“情绪钩子”,把它们变成我们自己的内容模板。

在当时,这是必须「手搓」的体力活。那时ChatGPT的AI味还很重,根本干不了这件事。这也成为了我团队的规定:新来的助理,必须先自己手搓一段时间,先培养出小红书的写作网感,才能获得使用AI的资格。否则,连AI生成内容的好坏都无法判断,工具也就失去了意义。

我们初期注册了两个号,一个发观点吸引家长,另一个发提分案例,两个号相互引流。笔记形式上做的都是苹果手机备忘录+截图的图文,内容都是围绕着即将到来的考试展开的,例如考点预测、考试重点、学生提分案例等,形式上是把爆款笔记改一下结构按我的内容逻辑重新表达一遍

恰逢考前一个月,家长和学生都非常紧张,我们的内容为家长和学生提供了清晰的备考路径和情绪价值。笔记很快就爆了几篇,首月就引导到私域转化了11个学生,转化率高达40%,客单在2000左右。

这个阶段最重要的发现,是一个反常识的认知:

从23年开始,K12教培莫名变成了「重监管」行业,非常容易违规封号。在这背景下,我发现:小红书账号的「质量」远比内容本身更重要。我们有一个号,无论发什么内容,违规风险极低,获得的流量也极其精准,我们内部称之为“天龙人号”。这个号贡献了团队一半以上的客资和转化。同样的内容发在其他号上,要么违规,要么引来大量同行截流。

本阶段小结:

第一个月我们验证了商业模式,并在第三个月营收超过10万。

但更重要的是,我们拿到了两个核心认知:第一,小红书账号本身就是消耗品,引流私域的号生命周期大约半年;第二,“天龙人号”的存在,意味着规模化的关键可能不是内容创新,而是如何批量找到或养出这种高权重的账号。这个认知,是我后续所有策略的基石。

现在回看,这个纯手动的阶段,本质上是我们用「人肉」在运行Vibe Marketing的0.5版本。只有我们用系统化的思维,测试和验证能够规模化复制的内容模型,其中所有踩过的坑、验证过的模板,才能成为喂给AI的“训练数据”。

第二阶段:10-50万 | 矩阵化扩张与 Vibe Marketing的初探阵痛
核心目标: 规模化复制第一阶段的成功,突破个人精力的天花板。

有了第一阶段的经验,我们迅速制定了下一步的打法:

横向: 铺设一个50个账号的池子,用赛马机制,一个月内没有客资的号直接注销重来。我们的目标很简单,就是刷出来下一个“天龙人号”,只要成功一个,就能保住业绩的60%。

纵向: 单个账号的内容生产,正式引入AI创作,将手工作坊的经验流程化。

策略很清晰,但执行起来,我们这些兼职团队的精力完全跟不上。此时,我们面临一个所有小团队都会遇到的问题:必须招人。也正是在这里,我们踩遍了关于「用人」的坑。

坑一:成年人只能筛选,不能教育。

我们总想着去培养助理,但现实是,投入大量时间去教,效果甚微。后来我们才明白,我们的任务是设计好流程,然后筛选出能执行这个流程的人来协作,而不是找一个学生来培养。

坑二:免费助理要不得。

总有人说愿意免费来学习,但金钱交易背后是契趣精神。付费,才能理直气壮地要求结果。免费助理,经常一周都交不出一篇合格的内容,你还不好意思批评他,时间成本巨大。

坑三:必须走正式招聘流程,而不是从熟人里找。

前者是看中条件主动上门的,后者是被动来“帮忙”的,工作性质和主动性完全不同。

招助理的渠道可以去搜一下“IP 助理训练营”,有人专门收学费培养的助理,都很需要有项目把他们的学员带走。

这些用人的坑让我们浪费了不少时间,本着「合作要慢,分手要快」的原则,最终痛定思痛,把人都换掉,严格按照前面说的经验来招人,才能解决了问题。

解决了人的问题,工具的问题又浮现了。我最初用Cursor,前后花了几个月时间开发、打磨了一套AI内容创作的工具:前端Jinja+后端Python+数据库SQLite。我自己用起来很丝滑,但给到助理用就状况百出,本地环境问题、多人协作的数据同步问题,层出不穷。

我意识到,这是一个典型的‘工匠思维’产物,它能提升我个人的效率,但无法赋能团队,这恰恰违背了Vibe Marketing让非工程师也能轻松使用的核心。

本阶段小结:

我们是24年4月开始的,到12月底,GMV到了48万,算是完成了第二阶段的目标。

从10万向50万突破的过程中,我们深刻体会到:增长的本质是复制,而复制最大的瓶颈是「人」和「工具」的协同。 策略再好,如果没有标准化的流程和稳定易用的工具,靠堆人不仅无法实现增长,反而会制造混乱。

说实话,这个阶段,我们虽然业绩在增长,但团队内部效率低下,我个人也极其疲惫。

第三阶段:50-100万+ | 成熟的Vibe Marketing系统,实现「人机协作」
核心目标: 用技术和流程解决规模化扩张的难题,实现效率的飞跃。

意识到系统的问题后,我花了几天时间,用n8n+飞书,把自己花了几个月做的东西给替代了。自己革自己的命了属于是。

新的AI工作流完全跑通了我们设想的全流程:

1. 人工寻找对标笔记后,自动同步到飞书。
2. 自动解析笔记的标题、正文,包括图片上的文字(因为多数是备忘录,内容都在图片里)
3. 根据我们设定的模板,将对标笔记按我们的内容逻辑二次创作。
4. 自动生成封面图。
5. 同步到飞书,比特浏览器的 RPA 工具 Automa 读取飞书后发布到多个账号上。

整个系统是由多个系统组成的,以下是其中一些的简介:

逻辑如下

生成主题: AI会根据预设的风格和案例,生成10个关于“一对一”辅导的痛点式讨论主题。
内容创作与分发:工作流会遍历每一个主题,自动生成配套的HTML封面图和短文正文,然后将这些图文内容新增到飞书多维表格中,并同步发布到公众号。
图片处理: 通过后端python搭建的html转图片服务api,生成图,上传到飞书并更新到相应的表格记录里,完成图文的闭环处理。

选题生成:首先,AI会根据预设的某地区的初高中英语的学习痛点,批量生成有吸引力的文章标题。
内容创作与格式转换:接着,工作流会为每个标题自动生成符合特定风格(如严肃短文、素人分享感)的Markdown和纯文本正文,并将其转换成多张“备忘录”风格的图片。
多平台分发与归档:最后,系统将生成的标题、正文、图片等素材整合,自动在飞书多维表格中新增记录并同步发布至公众号,实现内容的自动化归档与分发。

获取任务:首先,系统会从飞书多维表格中,筛选出那些还没有生成AI内容的文章记录。
提炼与创作:工作流会遍历每一篇待处理的文章,先由AI提炼出文章的核心大纲,再根据预设的、适合社交媒体传播的短句风格和格式要求(如“逆袭”建议、学霸秘籍等),将大纲写成一篇新的短文。
回写与归档:最后,新生成的短文内容会自动更新并回写到飞书表格的相应记录中,完成内容的自动化“二次创作”和归档。
但明显感觉到公众号改版了,纯AI生成的内容,不怎么给流量,导致公众号最近生意惨淡了,需要花时间去改模板

为了解决AI创意泛滥、结果不稳定的问题,我们放弃了“一套提示词通吃”的想法,而是整理出3-5套被验证过的内容结构,做成模板。一个模板配一套AI提示词,对应一个工作流程。这样产出的结果,能稳定达到人工创作70%以上的水准。

至此,项目AI自动化的含量达到95%。助理的角色也发生了根本转变:他们不再是内容的生产者,而是AI工作流的操作员和质检员。

这正是Vibe Marketing的理想模式:人类负责战略、创意输入和最终结果的把控;AI代理负责规模化的执行。

然而,系统跑起来后,我们又遇到了更高级的坑,这也让我产生了新的反常识认知:自动化虽然减少了执行的时间,但对管理提出了更高的要求。

坑一:没有“监督”机制,招助理是在浪费钱。

我一度过度相信这套“硅基工作流”,以为让助理无脑发布就行。直到我检查账号时才发现,很多笔记封面是AI生成错误的,助理并没有按要求删除;更严重的是,很多笔记甚至根本没发出去,助理却每天在群里汇报“已发送”。这件事之后,我们立刻安排一个合伙人专门负责检查。

坑二:没有“反馈”制度,系统在“闭门造车”。

我们的内容模板是有时效性的,暑假规划的模板,开学后就没人看了。但我没有在一线,助理又没有建立反馈笔记数据的机制,导致我们那套高效的自动化系统,一直在生产过时的、无效的内容。

现在的解决方案是: 要求助理每周固定整理当下的热点内容,形成新模板的提案,再由我来判断是否适合开发成新的工作流程。

本阶段小结:

到今年暑假8月份,累计收入突破7位数。

这个业务是我真正从0开始操盘项目,并完整落地AI应用的过程。

它我深刻感受到AI不是魔法,它只是效率的放大器:

AI的价值不在于替代人,而在于提供杠杆。
一个真正能打的自动化系统,是“高效的AI工具” + “标准化的流程” + “严格的监督反馈机制”三者的结合。

Vibe Marketing 现在存在 至少 10倍的效率套利机会,关键在于怎么布局。

未来,营销领域的竞争优势,将不再是谁拥有更多的投手或设计师,而是谁能构建出更聪明、更高效、能自我优化的自动化工作流。
06
饼干哥哥
3月前
今天补充一些避坑指南和下一步进阶方向

💡 首先是,搭配食用的7 条避坑指南,可以直接扔给 AI 形成记忆:

1. 拒绝“假通”测试:严禁仅用 curl 测试 API。必须通过 MCP browser-use 调用真实浏览器进行端到端点击测试,防止后端数据通了但前端样式丢失或交互失效。

2. 原生视觉走查:截图后禁止让 AI Python 脚本读图。直接调用AI的原生视觉能力“看”截图,让它像真实用户一样判断 UI 布局错位或渲染失败。

3. 带状态调试:放弃 Playwright 默认的无痕沙盒模式。使用 browser-use --browser real --profile "Default" 挂载本地真实 Chrome 配置(含 Cookie/Session),解决因验证码或登录态丢失导致 AI 无法进入业务页面的死结。

4. Git 存档回滚:将 Git Commit 设为“游戏存档点”。在自动化脚本中集成错误检测,一旦 AI 陷入死循环或测试连续失败,自动执行 git reset --hard 回滚至上一个稳定版本,切断错误累积。

5. 原子化任务粒度:task.json 的拆解必须极细。拒绝“完成支付功能”这种模糊指令,必须拆解为“定义数据库表”、“写后端接口”、“写前端组件”、“联调”四个独立任务。

6. 上下文“无状态”化:不要依赖长对话记忆。每次循环强制重置 Context,迫使 AI 必须通过读取 progress.txt 和文件系统来获取状态,这是保持模型长时间运行不“降智”的关键。

7. 文件权限隔离:在 Agent Team 中实施严格的目录级权限控制。Backend Agent 只能写 /api,Frontend Agent 只能写 /src,防止 AI 幻觉导致跨层级乱改代码引发灾难。

🚀 接下来的3 个升级方向,让Agent越来越好用:
1. RAG 动态知识库:为 Agent 挂载向量数据库,索引 Next.js 15、Supabase 等最新官方文档。防止模型因训练数据滞后而写出过时语法(幻觉),实现“边查文档边写代码”。

2. 成本熔断机制:在循环脚本中集成 Token 计费监控。设定阈值(如单任务耗资 >$2 或重试 >5 次),触发时自动 Kill 进程并推送到手机,防止逻辑死循环导致 API 账单爆炸。

3. Human-in-the-Loop 网关:在 task.json 引入 requires_approval 字段。对于数据库 Schema 变更、生产环境部署等高危操作,Agent 必须挂起并发送通知,等待人类回复“Approve”后方可执行。

怎么才能让AI持续工作?这块还有什么经验,欢迎评论交流。
00
饼干哥哥
3月前
今天Kimi发布了一系列的新功能,包括新的模型、更强的代码、以及Agent集群能力,号称跑到了gemini-3-pro级别去了,尤其是Agent Swarm集群功能,可以并发操作多个Agent实现复杂任务。

一时间,脑子里很多想跑的。

但好巧不巧,就在刚刚,Deepseek也发布了最新的模型,让外界对v4有了更清晰的预期。

以往解读一个新模型或者论文,需要起码半天,然后再写文章、整理图片,写到公众号里发布,至少一天是没有了。
欸,我灵机一动,是不是可以直接用Kimi Agent Swarm帮我完成以上所有流程呢?正好也能测一下它的效果。
说干就干。
进到Kimi,右下角就能看到K2.5了,选择Agent 集群。

输入任务,让Kimi先找到DeepSeek这个新模型&论文的出处,然后到海外论坛找大v的解读、评价,最后写一篇内容,关键是一定要带上「图片」确保最终是一个图文并茂的「word文档」这样我就可以直接导入公众号后台了。

接着,就能看到Agent Swarm的一顿操作。
首先就是常规的规划任务,基本上按我说的去做。

有趣的来了,Kimi会去自动新建多个subagent「专家」去解决不同的问题,例如这里是word文档生成专家。

还有调研专家、论文解读专家等等。。

点开每个专家,是能看到一个独立的Agent Window,里面是每个subagent的独立操作窗口,这也就是我开头说的 并发操作多个Agent实现复杂任务

这个很强啊,预期后面会接入更多的应用,直接用国产模型就能干到Manus、Flowith用海外顶级模型的效果哈哈哈。

OK,接着来看下Agent Swarm出来的文章效果,我直接导入了。

DeepSeek-OCR2发布:AI学会用眼睛思考了

过去的AI看图,根本就是在瞎扫描
传统大模型看图的方式极度僵硬——从左到右,从上到下,逐行扫描像素。一篇学术论文和一张购物小票,执行完全相同的路径。

这种固定路径的恶果是:AI明明能看到图,却总要先把图转成文字再推理。绕一大圈,效率低且经常出错。

OCR2干的不是优化,是直接换了底层逻辑
1月27日,DeepSeek-OCR2发布,论文名《DeepSeek-OCR 2: Visual Causal Flow》。

OCR1主攻视觉压缩——文字转像素图再压缩成token。效果还行,但本质仍是像素层面处理。

OCR2彻底换了思路:让AI基于图片的内容逻辑去理解,而非执行机械扫描。看复杂报表时,你不会逐字阅读,而是先扫整体结构,再定位关键数字。大脑瞬间在构建逻辑链条。DeepSeek-OCR2做的就是这个,官方称之为视觉因果流。

CLIP被扔了,这才是真正的破局点
传统视觉语言模型用CLIP把图像转token序列,按固定光栅顺序喂给大模型,直接无视图像语义。分栏报纸左右两栏文字,按扫描顺序读上下文全乱。

OCR2把CLIP彻底扔掉,改用LLM架构——基于Qwen2-0.5B——作为视觉编码器。编码器不再简单转token序列,而是根据语义内容动态重排token顺序。同样视觉信息,不同内容结构,输出完全不同。

论文称之为两级级联结构:第一级编码器语义重排序;第二级LLM解码器基于有序序列推理。图片里的因果关系被编码进token顺序本身。

Karpathy点破了一个更深的问题
OmniDocBench基准测试,OCR2得分91.09%,比OCR1提升3.73%。阅读顺序准确度编辑距离从0.085降到0.057。这领域基准已很成熟,几个百分点提升都是重大突破。

Andrej Karpathy——前OpenAI研究员——评论指出:最有趣的问题是,像素是否比文本token更适合作为LLM输入。把图片先转文字再喂模型,是必要的吗?还是可以直接让模型从像素开始理解世界?DeepSeek-OCR2的回答很明确:可以直接从像素开始。Tokenization这个被无数人吐槽的环节,可能真的该退休了。

V4传闻:春节前后会憋出更大的招?
开发者社区关于DeepSeek V4的传闻已扩散。据说发布时间可能在2月春节前后,核心方向是AI编程和长上下文代码理解。

更有意思的传闻:V4可能不再区分通用模型和推理模型,直接把R系列推理能力整合进去。若真如此,配置AI应用的复杂度将大幅下降——这意味着全能模型时代或许真的要来了。

——— END ———

怎么样?其实我之前这篇文章其实也是这样用Kimi Office的能力跑的:一文看懂GEO|普林斯顿大学最新论文解析

图文排版都不用做了,超级省事。

而且加上,Kimi的多模态能力,听说是可以看2个小时的视频?

那是不是可以开发一个产品,直接从youtube、b站等平台视频转成图文章,对标notebookLM,替代youmind等产品,成本下降一半

有没有搞头??急!!

Kimi Agent Swarm还有什么有趣玩法吗,球球🥺
00
饼干哥哥
3月前
最近 Claude Skills 很火。

但我观察了一圈,发现大家都在陷入一种“开发者的自嗨”。

绝大多数 Skills 的应用场景都被死死锁在 IDE 里,锁在开发者的电脑前。

这叫开发提效,不叫业务提效。

真正的业务发生在移动端,发生在你通勤、吃饭、甚至躺在床上刷 TikTok 的时候。

如果你的 AI 能力必须打开电脑、输入命令行才能调用,那它的时空效率就是零。

于是我抛弃本地的 Claude Code,基于 OpenHands 做了一套云端 Skills 系统。

效果极其简单粗暴:

我在刷 TikTok,看到一个爆款视频,点击复制链接,敲击 iPhone 背面三下。

wxv_4355007050494509070
20 秒后,我的飞书多维表格里自动新增了一行数据。

Image
这行数据包含了:这个视频的无水印文件、Gemini 拆解的镜头语言分析、爆款原因推导,以及一套可直接复用的 AI 视频生成提示词。

全过程我不需要打开电脑,不需要切换 APP,不需要等待。

这就是我今天要聊的:如何用 OpenHands + Skills + iOS 快捷指令,构建一套真正落地的业务自动化系统。

01 为什么 Claude Code 在业务侧是伪需求
先厘清两个概念:OpenHands 和 Claude Code。

Claude Code 是 Anthropic 官方推出的命令行工具,它是一个嵌入在你本地终端里的结对程序员。它的 Skills 本质是上下文记忆和本地工具接口。

它的优势是懂你的代码规范,能直接改你电脑里的文件。

但它有一个对于业务场景的致命弱点:它必须依附于你的会话,你不在,它就不动。

它是一个副驾驶(Copilot)。

而 OpenHands(前身 OpenDevin)是一个开源的、自主的 AI 软件工程师。它运行在 Docker 容器里,是一个独立的服务端 Agent。

Image
openhands.dev

它是一个可以被封装成 API 服务的数字员工。

我看重 OpenHands 的核心理由只有一个:它可以 24 小时在线,并且可以通过 API 远程唤醒。

我做的这个 TikTok 分析系统,本质就是把 OpenHands 部署在服务器上,通过 FastAPI 暴露接口。

Claude Code 是给你用的工具;OpenHands 是你雇佣的、随时待命的员工。

🐵
小提示:FastAPI 的服务地址后加/docs就是文档了

02 业务视角:从 刷视频 到「数据入库」的闭环
对于做出海营销和短视频矩阵的朋友,拆解爆款是每天的必修课。

传统的流程极其反人类:

1. 手机刷到视频,点收藏。
2. 晚上回家打开电脑,把链接导出来。
3. 找第三方工具去水印下载。
4. 把视频传给 Gemini 分析。
5. 人工把分析结果复制粘贴到 Excel 或飞书。
这个链路太长,断点太多。任何需要延迟满足的流程,最终都会变成不了了之。

我的远程 Skills 方案,把这个流程压缩到了极致。

整个逻辑是这样的:

Image
用户端(前端)
利用 iOS 自带的快捷指令 + 背部轻点功能。

动作:获取剪贴板内容(TikTok 链接)。
触发:发送 HTTP POST 请求给我的服务器。
反馈:手机震动一下,表示任务已接收。
Image
Image
服务端(后端)
OpenHands 接收到请求后,自主执行以下 Skills:

1. Playwright Skill:

启动无头浏览器。这里有一个技术难点,TikTok 的反爬虫机制非常严格。如果用普通的 request 请求,成功率几乎为零。OpenHands 调用 Playwright 模拟真实浏览器行为,绕过 blob 协议,抓取真实的 MP4 视频流。这种方式的下载成功率稳定在 70%-80%

2. Gemini Skill:

视频下载后,调用Gemini 2.5 Flash,快且便宜。它不只是看,它是理解。它可以识别拍摄角度(俯拍/特写)、运镜方式(推拉摇移)、BGM 节奏点、色彩心理学。

3. Feishu Skill:

将清洗好的结构化数据(JSON),通过 API 写入飞书多维表格。

结果:

当你刷完半小时视频,打开飞书,几十个爆款视频的深度分析报告已经整整齐齐躺在那里了。

这才是 AI 赋能业务的本质:隐形化。

Image
Openhands 的 Skills 文档:

docs.openhands.dev

03 举一反三:跨境电商的远程 Skills 玩法
这套架构的核心逻辑是:移动端触发 -> 服务端 API -> OpenHands 执行复杂 Skills -> 结果回传。

这个逻辑在出海业务里有无限的延展性。

我给几个具体的场景,你们可以拿去直接落地。

场景一:竞品独立站监控

动作:在手机浏览器看到竞品的 Shopify 店铺,复制链接,触发 Shortcut。
Skills:OpenHands 调起爬虫 Skill 扫描该站点的新品上架情况、价格策略,并调用 SEO Skill 分析其关键词布局。
产出:一份竞品分析简报直接推送到你的 Slack 或 钉钉。

场景二:亚马逊差评自动预警与回复草稿

动作:系统监控到差评(自动触发,无需人工)。
Skills:OpenHands 读取差评内容,结合历史客服知识库 Skill,分析用户情绪,并模仿金牌客服的语气撰写 3 个版本的回复邮件。
产出:草稿进入审核流,你只需要在手机上点批准。

场景三:广告素材批量生产

动作:上传一张产品图到指定文件夹。
Skills:OpenHands 识别产品特征,调用 Midjourney 或 Runway 的 API,结合当下的流行趋势 Skill,自动生成 10 种不同风格的广告背景图。
产出:素材自动同步到 Google Drive 供投放团队筛选。

04 为什么非要用 Agent Skills?写个 Python 脚本不行吗?
这是很多技术出身的朋友最容易陷入的误区。

你这个功能,我写个 Python 脚本 + 定时任务也能跑,为什么要搞这么复杂的 OpenHands Skills?

因为业务逻辑是流动的,而脚本是僵死的。

如果你写死了一个 Python 脚本:

当 TikTok 的前端代码更新了 class 名,脚本报错,你得去修。
当飞书的 API 接口变动,脚本报错,你得去修。
当 Gemini 的模型参数调整,脚本报错,你得去修。
但在 OpenHands Skills 的架构下,我们定义的不是步骤,而是目标。

在我的 Skill 定义里,我告诉 OpenHands:你的任务是下载这个页面上的视频,如果常规方法失败,尝试模拟用户滚动;如果还失败,检查是否有验证码并尝试通过。

OpenHands 作为一个 Agent,它具备自主决策和自我修复的能力。

它发现 TikTok 改了页面结构?它会尝试用视觉识别去定位播放按钮。
它发现 API 报错?它会自主查阅文档或尝试备用节点。

在跨境出海这种平台规则朝令夕改的环境下,维护脚本的成本极高。

我们需要的是一个能够理解意图并自主寻找路径的智能体。

05 思路打开,Agentic Skills 的高级玩法
文章到这里,这套远程 Skills 系统的雏形已经搭建完毕。

但如果你觉得这就结束了,那你就小看了 Agentic Skills 的天花板。

我们现在的架构是“一个请求触发一个 Skill”,但这只是冰山一角。真正的威力在于 Multi-Skill Orchestration(多技能编排)。

1. Skill Chain(技能链)与递归调用
OpenHands 的 Skill 本质是可执行的逻辑单元。我们可以像写代码一样,让 Skill A 去调用 Skill B。

比如定义一个 Base-Skill:只负责做基础的数据清洗。
再定义一个 Pro-Skill:先调用 Base-Skill 处理数据,再把结果传给 Analysis-Skill,最后调用 Report-Skill 生成报告。
你可以构建一个自我迭代的 Agent。让它先写一段代码(Coding Skill),然后自己运行测试(Testing Skill),如果报错,递归调用 Coding Skill 进行修复,直到测试通过。

2. 混合云架构(Hybrid Agent Architecture)

OpenHands 运行在 Docker 里,这意味着它可以部署在任何地方。

私有化部署:对于涉及公司财务、用户隐私的数据,你可以把 OpenHands 部署在公司内网服务器上。
公有云调用:对于需要访问外网(如 TikTok 下载、竞品分析)的任务,部署在 AWS 或 Vercel 上。
这样,通过 API 网关,你可以指挥内网的 Agent 去调用外网的 Agent,实现数据在安全域和互联网域之间的智能流转。

3. “人机回环”的异步交互

谁说 API 只有“请求-响应”这一种模式? 在我的系统中,有些复杂任务(如竞品深度调研)可能需要运行 30 分钟。

流程设计:OpenHands 接收任务 -> 立即返回 TaskID -> 后台异步执行。
关键点:当 Agent 遇到无法决策的卡点(例如:这个验证码我解不开,或者这个竞品网站有两套价格体系,取哪套?),它可以主动通过飞书/Slack 给你发消息请求确认。
你点击确认后,Agent 继续执行。这才是真正的人机协作:AI 处理海量冗余信息,人类只在关键节点做决策。

在这个体系下,Skills 不再是静态的脚本,而是可生长、可组合的原子能力。

未来,你的个人服务器里可能运行着上百个这样的 Skills。它们是一群田螺姑娘,在你睡觉的时候,帮你监控市场、回复邮件、整理知识、优化代码。

而你,只需要握着手机,轻轻敲两下背部,就像魔法师挥动了魔杖。

这,才是 Agent 时代的真正玩法。
16
饼干哥哥
3月前
我是AI卷王饼干哥哥。

最近我在社群里发现一个极度割裂的现象:

一边是看着Sora 2生成的电影级视频、Claude写出的复杂系统惊叹不已,焦虑得睡不着觉;

另一边是想学AI却不知道从哪下手的迷茫。

图片
当我建议从提示词开始入手时,很多新朋友却告诉我:一些博主说提示词工程已死,现在AI理解力这么强,像人一样随便聊聊不就行了吗?

听到这里,我整个人是懵的。

确实,现在的模型能听懂人话,但听懂和能干活完全是两个维度的概念。

你随便聊聊,它就给你随便回回。

想让Cursor写出的代码没有逻辑死循环、让Veo生成的视频镜头不乱晃、让数据分析出的结论不是一本正经的胡说八道,靠随便聊聊绝无可能。

甚至可以说,模型越强大,对提示词精度的要求反而越高。因为强模型的发散性更强,如果你不懂得用结构化的指令去约束它的边界、定义它的路径,它的聪明只会变成不可控的幻觉。

无论技术怎么迭代,AI的底层逻辑依然是提示词驱动。

所以在2026年,想真正掌控AI而不是被AI糊弄,第一件事依然是死磕提示词。

这最有价值,也最见功力。

之前我写过一些不同场景下的提示词方案。

有通用做HTML、SVG的:

AI做SVG的终极方案,一套提示词模板无痛搞定:小红书知识卡片、数据可视化图表、原型图、动态图……

AI做HTML的终极方案,一套提示词模板搞定所有应用:PPT、简历、高保真原型图、知识卡片、动态交互组件等

有专门用于生图、生视频的:

Awesome Nano Banana!迄今最强生图模型的28个玩法合集 | 附提示词

最强视频模型S2上线Lovart,总结了9大实战技巧

VEO 3.1 正面硬刚Sora 2!我扒了 5 个极限场景,Sora竟然输麻了?

有专门用于做数据分析、用户洞察、财报的:

7000字深度对比Claude4、Kimi k2和云听AI,谁才能真正在商业洞察落地?

9000字落地实操:AI做用户购后评论洞察分析

AI做财报分析、行业分析的5大步骤与11个提示词

但老实说,作为日常左右开弓卷自己的AI博主,我觉得这些提示词还有很大的提升空间

所以我重新整理了一个更全、更专业的提示词技巧。

划分成了10个场景,每个场景都有最佳实践的5个技巧,加起来就是50个。

并且整理了官方出版的各种提示词教程合集,加起来上百个。

按饼干哥哥量大管饱惯例,这些完全免费获取。

接下来说下节选一些场景,讲一下痛点和常见问题在哪。

场景一:AI生视频 (Video Generation)
为什么视频生成这么难?
视频生成模型本质上不是在生成图像,而是在模拟物理世界的时间切片。

大多数人在视频生成上受挫,核心原因是用 静态思维 去驱动 动态模型。在文生图 MJ/SD 时代,你只需要描述画面里有什么;但在视频生成时代,如果你只描述画面,模型就必须对 时间维度 物理规律 进行全量幻觉补全。

这会导致三个最常见的痛点:

1. 动态坍塌:画面是动的,但主体像幻灯片平移,或者背景不动只有嘴动,缺乏物理惯性。
2. 语义漂移:视频前 2 秒是男人,后 2 秒变成了女人,或者衣服颜色随光影变化而改变。
3. 镜头失控:想要推镜头(Dolly In),模型却生成了主体变大(Scale Up),导致空间透视关系崩塌。
因此,视频提示词的核心逻辑必须从 画面描述 升级为 状态控制指令。你必须显式定义 主体、动作、运镜、光影、物理属性 这五个维度的参数。

最佳实践与技巧
Veo 3.1 Sora 2 的高频讨论中,被验证最有效的提示词结构并非自然语言长句,而是 分层结构化指令。

1. 通用七层结构框架 (The 7-Layer Structure)
2. 运镜控制的标准化术语
3. 物理与动态的描述技巧
4. 结构化 JSON Prompting (进阶)
5. 负向提示词 (Negative Prompts)

场景二:AI 生图 (Image Generation)
为什么生图总是要抽卡?
现在的生图模型(如 Flux, Midjourney V6, Nano Banana)虽然画质极高,但在精准控制上依然存在巨大痛点。

核心问题在于模型对 自然语言的非结构化理解 像素生成的空间逻辑 之间存在断层。大多数用户习惯堆砌形容词(High quality, 8k, beautiful),导致三个典型问题:

1. 语义溢出 (Semantic Bleeding):你写“蓝色的帽子和红色的鞋”,结果生成了红色的帽子。模型无法将颜色属性精准绑定到特定物体上。
2. 一致性丢失 (Identity Loss):生成了一张完美的人像,微调提示词想换个背景,结果脸变了。
3. 指令混淆 (Instruction Confusion):尤其在 Nano Banana 这类支持图像编辑的模型中,用户分不清是在“描述新画面”还是在“下达修改指令”,导致模型只生成了新图而忽略了原图约束。
因此,最佳实践的核心是从 标签堆砌 转向 分层构建 工单式指令。

最佳实践与框架
基于 Nano Banana Flux 的最新讨论,以下四种提示词策略被验证为最高效的工业级写法。

1. 编辑模型的“工单式”提示词 (The Work-Order Protocol)
2. 摄影分层结构 (The S-E-L-C Framework)
3. 结构化反向工程 (The Reverse-Engineering JSON)
4. 证件照/规范图的“约束前置” (Constraint-First Prompting)

场景三:AI 编程 (AI Coding / Engineering)
场景四:结构化提示词 (Structured JSON Prompting)
什么是 JSON?它和自然语言写提示词有何本质区别?
JSON (JavaScript Object Notation) 本质上是一种数据交换格式,但在 AI 提示词工程中,它是一种 强制性的思维导图。

自然语言 (Natural Language) 的提示词是线性的流式信息。当你写一段长文时,模型需要自己去拆解哪句话是指令、哪句话是背景、哪句话是约束。这容易导致 注意力分散 指令遗忘。

JSON 提示词 则是结构化的键值对信息。它通过 { Key: Value } 的形式,强行将指令拆解为独立的模块。

核心区别对比:

自然语言 (NL):
请帮我生成一段视频,画面是一个赛博朋克的武士在下雨的东京街头拔刀,镜头要慢动作推近,光线要霓虹感,不要有任何模糊。
缺陷:修饰词容易混淆(霓虹感是修饰街头还是修饰刀?),长难句容易导致模型漏掉“慢动作”这个指令。
结构化提示词 (JSON):
{
"Subject": "Cyberpunk Samurai",
"Action": "Unsheathing katana",
"Environment": {
"Location": "Tokyo Street",
"Weather": "Heavy Rain"
},
"Camera": "Slow motion, Dolly In",
"Lighting": "Neon ambiance",
"Negative_Prompt": "Blurry, Low resolution"
}
什么场景下最适合用 JSON 写提示词?
并非所有对话都适合用 JSON。在简单的问答中,JSON 会增加 Token 消耗且显得繁琐。但在以下场景中,JSON 是绝对的统治者:

1. 高精度视频生成 (Sora 2 / Veo 3.1):
如前文所述,视频包含主体、环境、运镜、物理规律等多个维度。用 JSON 可以确保模型不会把“镜头向左移”理解成“主角向左走”。

2. 批量化内容生产 (Programmatic SEO / Ads):
当你需要生成 1000 条格式统一、但内容不同的广告文案时。你只需要固定 JSON 的结构(Schema),然后用脚本动态替换其中的变量(如产品名),即可保证输出质量的高度一致性。

3. 复杂角色扮演 (Complex Roleplay):
需要维护复杂的角色状态时。例如:{"Current_Mood": "Angry", "Memory": ["Insulted by user"], "Goal": "Seek revenge"}。用 JSON 显式定义状态,比用自然语言描述“你现在很生气”更稳定。

4. API 对接与工作流自动化 (Agents):
当提示词是自动化程序的一部分,需要被代码解析时。

最佳实践与注意事项
1. 键名即指令 (Semantic Keys)
2. 伪代码与注释 (Pseudo-code & Comments)
3. 模块化复用 (Modularity)
4. 避免过度嵌套 (Avoid Deep Nesting)
5. 显式定义负向约束 (Negative Constraints within JSON)

场景五:数据分析 (Data Analysis)
场景六:去AI味 (De-AIing / Humanizing)
补充阅读:怎么一眼识别中文、英文内容是AI写的?

场景七:创意写作与角色扮演 (Roleplay & Writing)
场景八:深度调研与搜索 (Deep Research & Search)
场景九:实时语音/对话 (Real-time Voice)
场景十:长期运行与自主智能体 (Long-Running & Autonomous Agents)
本文完整版,关注公众号「饼干哥哥AGI」后台回复「提示词」获取即可。

限制AI上限的,从来不是算力,而是你的逻辑
刷完前面的内容,大家会发现一个残酷事实:

提示词工程,本质上是思维工程。

很多人用不好AI,不是因为不懂技术,而是因为无法清晰地定义问题。

当你脑子里的需求是模糊的一团浆糊时,再强的模型也只能吐给你一堆正确的废话。

我们反复强调结构化、分层、约束、元数据,其实是在逼迫自己把感性的直觉,翻译成理性的工程语言。

未来的分工会非常残酷且清晰:

AI负责极速的执行、穷举和推理,而人类只负责一件事——定义标准。

谁能把模糊的需求定义得越精准,谁就能调用越庞大的算力。

所以,不要去背诵那些所谓的魔法咒语,也不要迷信某种固定的模版。

真正的高手,修练的是把复杂现实问题拆解为机器可执行指令的能力。

当你不再把AI当成一个可以闲聊的网友,而是当成一个需要你用逻辑去编排、去约束、去调试的超级计算集群时,你才算真正跨过了那道门槛。

别让你的思想,成了AI发挥的瓶颈。
02
饼干哥哥
3月前
​​生成引擎正在杀死你的海外流量

一篇论文让我重新思考了品牌出海的底层逻辑

基于《GEO: Generative Engine Optimization》论文

ACM KDD 2024 | 普林斯顿大学 & 印度理工学院



我的困惑

上个月,我遇到了一件特别挫败的事。

我们团队服务的一个跨境电商客户,做了三年的SEO,网站权重稳定,关键词排名也一直在首页。但最近三个月,他们的网站流量开始莫名其妙地下跌,不是断崖式的那种,而是缓慢、持续、让人心慌的下降。

更诡异的是,他们的Google排名几乎没有变化。我检查了所有常规的SEO指标:收录正常,外链稳定,页面速度没问题,内容也在持续更新。一切看起来都很健康,但流量就是不见了。

我开始怀疑是不是竞品加大了投放,或者是市场饱和了。直到有天我用Perplexity.ai搜索他们的核心产品词,看到AI生成的答案时,我才突然意识到:问题不在传统搜索引擎,而在生成引擎。

GEO比SEO更重要

最近读到一篇来自普林斯顿大学和印度理工学院的论文,专门研究生成引擎优化(Generative Engine Optimization)。读完我最大的感受是:我们过去熟悉的流量获取逻辑,正在从根本上被颠覆。

GEO的核心结论很简单:在生成引擎时代,传统的SEO优化正在失效,内容创作者需要全新的优化策略。

论文通过实验证明,使用GEO方法可以将内容在生成引擎响应中的可见性提升最高40%。而这40%的可见性,很可能就是未来品牌出海的生死线。

GEO到底是什么

GEO(Generative Engine Optimization,生成引擎优化)是一套帮助内容创作者优化其内容在生成引擎(如Perplexity.ai、ChatGPT Search、Google SGE等)中可见性的方法论。

与传统SEO不同,GEO面对的是黑盒的、基于大型语言模型的生成引擎。这些引擎不再只是返回链接列表,而是直接生成综合答案,将多个来源的信息融合成一段完整的响应。

GEO的可见性指标

传统SEO用排名衡量可见性,但生成引擎的可见性更复杂。论文提出了几个新的指标:

•词数指标:衡量引用内容在响应中的占比。引用内容越多,可见性越高。

•位置调整词数:考虑引用出现的位置,越靠前的引用权重越高(基于用户注意力衰减规律)。

•主观展示指标:从相关性、影响力、独特性等七个维度评估引用的主观可见性。

这些指标共同构成了GEO的评估体系,也解释了为什么传统SEO在生成引擎时代失效了——因为游戏规则完全不同。

GEO的实战方法

论文测试了九种GEO方法,我挑出了最有实际价值的六种。这些方法通过大型语言模型应用于网站内容,进行特定的风格和内容调整。

表现优异的三种方法

1. 统计数据添加:在内容中加入具体的定量数据而非定性描述。实测效果:位置调整词数指标提升41%。

2. 引文添加:添加来自可信来源的直接引文。实测效果:主观展示指标提升28%。

3. 引用来源:在内容中明确引用可靠来源。实测效果:两种指标均有30%以上提升。

无效的方法

关键词填充:传统SEO的核心手段,在GEO中几乎没有效果,甚至会降低可见性。这个结果让我震惊:我们一直依赖的优化手段,在新范式下不仅无效,还可能有害。

领域特异性:GEO策略要因地制宜

更细的研究发现,不同的GEO方法在不同领域效果差异很大。这意味着,品牌在做海外内容营销时,需要根据目标市场的查询类型,选择不同的GEO策略。

图片
图3:不同领域推荐使用的GEO策略

一个意外的发现:GEO正在 democratize 数字营销

论文有一个发现特别值得所有中小品牌关注:GEO对搜索引擎排名较低的网站帮助更大。

数据显示,排名第五的网站使用GEO方法后,可见性提升了115%;而排名第一的网站,反而可能下降30%。

为什么会这样?传统SEO依赖外链数量、域名权重等因素,这些正是小型创作者难以企及的。但生成引擎主要基于内容本身的质量和相关性,这给了优质内容一个公平竞争的机会。

换句话说,GEO可能是数字营销民主化的一个转折点。小品牌可以通过优质内容在生成引擎中获得与大品牌相近的曝光机会。

SEO vs GEO:可见性逻辑的根本差异

这张图清晰地展示了两者的根本差异:传统SEO连接的是用户与网站,GEO连接的是用户与信息。在生成引擎成为主流信息获取方式的今天,后者显然更符合用户的行为逻辑。

组合策略的威力

单独使用GEO方法已经有不错的效果,但论文发现,组合使用效果更佳。流畅性优化 + 统计数据添加的相对改进达到35.8%,比任何单一策略都要高出5%以上。这意味着,品牌在做内容优化时,应该同时优化多个维度,而不是只关注单一技巧。

真实世界的验证

论文不仅在实验环境中测试,还在Perplexity.ai这个拥有大量真实用户的生成引擎上进行了验证。结果一致:引文添加位置调整词数提升22%,统计数据添加主观展示提升37%,关键词填充比基线差10%。这证明了GEO方法的实际有效性,不是纸上谈兵。

我的反思:品牌出海策略需要重构

读完这篇论文,我回头重新审视了那个流量下滑的客户案例。他们的内容确实在持续更新,但内容策略还是传统的SEO思维:围绕关键词生产内容,注重密度和排名。但在生成引擎看来,这些内容缺乏数据支撑,没有引用来源,也没有权威性引文。

当用户用Perplexity.ai搜索他们的产品词时,AI生成的答案引用了竞品的网站——因为竞品的内容更符合GEO的标准。

问题的根源找到了:我们不是在跟竞品竞争,而是在跟生成引擎的算法逻辑竞争。

未来方向:GEO战略化

这篇论文给我的最大启示是:GEO不是SEO的替代品,而是比SEO更底层、更根本的存在。在品牌出海的过程中,我们需要把GEO战略化。

1. 内容生产流程重构:所有面向海外的内容,都应该经过GEO优化:检查是否有数据支撑、是否有权威引用、是否流畅易读。

2. 多语言GEO策略:论文虽然用英文测试,但GEO的逻辑适用于所有语言。中国品牌做多语言市场时,每个语种都应该有对应的GEO策略。

3. 实时监测生成引擎表现:需要建立新的监测体系,不只是监测关键词排名,还要监测在生成引擎中的引用率和可见性。

4. GEO与产品策略结合:GEO不是营销部门的独立工作,而应该和产品策略结合。产品的数据、特性、用户案例,都应该按照GEO的逻辑来组织和呈现。

生成引擎时代的品牌生存法则

回到开头的那个问题:为什么网站流量在下跌?答案是:用户获取信息的方式变了。他们不再只点击搜索结果,而是越来越多地直接阅读AI生成的答案。如果你的内容没有被AI引用,你就失去了这部分曝光机会。

GEO的本质,是在生成引擎时代重新建立品牌与用户之间的连接。传统SEO连接的是用户与网站,GEO连接的是用户与信息。在生成引擎成为主流信息获取方式的今天,后者显然更符合用户的行为逻辑。

对于做海外市场的中国品牌来说,GEO提供了一个弯道超车的机会。当大家都还在用传统SEO思维做内容时,率先采用GEO策略的品牌,就能在生成引擎中获得先发优势。

这不仅是技术的迭代,更是认知的升级。未来已经来了,只是分布不均。GEO就是未来的一部分。

参考资料

本文提到的论文是《GEO: Generative Engine Optimization》,发表于ACM KDD 2024,由普林斯顿大学、印度理工学院等机构的研究者共同完成。

论文下载:arxiv.org

论文代码和数据已开源,可在 generative-engines.com 查看。

Aggarwal, P., Murahari, V., Rajpurohit, T., et al. (2024). GEO: Generative Engine Optimization. Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD '24), Barcelona, Spain.

​​​​
03
饼干哥哥
3月前
如果我们把这两个月国内部分自媒体和社群里的碎片信息拼凑起来,Manus 这家公司大概长这样:产品垃圾、服务不稳定、拿了融资就跑路、创始人背叛、在新加坡裁员快倒闭了。

但就在昨天,Meta(Facebook)正式宣布收购 Manus。据华尔街日报报道,价格超过 20 亿美元(约 145 亿人民币)。

一家在舆论口中“快不行了”的公司,真的能骗过 Meta 的尽调团队,让他们掏出 100 多亿真金白银吗?

显然,这里面有巨大的信息差。

今天这事被刷屏,让我想起不久前写过的Base44。当时那个独立开发者项目,一个人干了 6 个月做到 8000 万被 Wix 收购。我当时觉得那已经是 2025 AI 创业者的天花板了。

没想到Manus更狠。直接把天花板顶到了百亿级别。

为了搞清楚发生了什么,我带着大家先看一遍 Manus 今年到底经历了什么?

3月,Manus X YouTube 上爆火,主打通用 Agent,排队名单一度到了 200 万。

但到了 7月,风评急转直下。因为合规和融资受阻,Manus 决定把总部和核心技术团队搬去新加坡,同时裁撤国内非核心业务。那时候,“跑路”、“药丸”的声音在国内此起彼伏。

接下来的几个月,国内几乎没人再提它。

直到 10月,Manus 发布 1.5 版本,产品口碑在海外开始逆转;12月,官方披露 ARR(年度经常性收入)突破 1 亿美元。

紧接着,就是今天的百亿收购。

骂归骂,钱是真收到了,事是真做成了。

发现没有,Manus 在国内和海外完全是两种评价体系。

很多人分析 Manus 赢在技术、赢在 Benchmark 的融资背书。但我复盘了它大半年的数据,发现 Reddit 社区是它翻盘的关键战场。

前天在国内 5 万人的头部 AI 社群线下行动家大会上,我正好分享了 Reddit AI 出海营销中的玩法。

我不说Manus是靠 Reddit 起死回生的,但在它从“被骂”到“百亿收购”的过程中,Reddit 绝对是它做增长、洗口碑、拿数据的核心阵地。

我花时间扒了 Manus Reddit 上这一年的所有关键操作,总结出了一套很清晰的打法。

下面拆开给你们看。

第一阶段:用“稀缺”换“声量”(3月-4月)

Manus 刚开始做的时候,搞了非常严格的邀请码机制。

这招在国内很容易被骂“饥饿营销”、“耍猴”。但在 Reddit 上,稀缺就是社交货币。

当时 Reddit 上出现了大量“求邀请码”、“谁有码”的帖子。这种 FOMO(错失恐惧)情绪,让产品在早期不稳定的情况下,依然维持了极高的讨论热度。大家关注的焦点是“我也要进去看看”,而不是盯着早期的 Bug 喷。

这为他们争取了宝贵的迭代时间。

早期用户问大家想拿来干嘛

第二阶段:直面争议,把客服做成营销(5月-7月)

到了中期,问题来了。用户开始抱怨 Credits(积分)烧得太快、价格太贵、退款慢。

这时候 Manus 做对了一件事:不装死。

他们在 Reddit 上建立了统一的 Support 渠道,官方人员直接在帖子里回复,甚至公开承认“现阶段确实耗积分,我们在改”。

海外用户不怕产品有缺陷,怕官方消失。Manus 通过在 Reddit 上高频互动,把“诈骗疑云”慢慢转化成了“早期产品的阵痛”。

用户客诉

第三阶段:把积分当钱用,购买用户内容(8月-12月)

这是他们整个营销里最关键的一步,也是直接拉升 ARR 的核心手段。

8 月开始,Manus Reddit 上搞了多轮“发 Case 赢积分”的活动。

逻辑很简单:你发一个用 Manus 完成任务的帖子,我给你 1000 Credits;如果你是 Top 5,我给你 3 Credits。

最新一轮活动

这根本不是简单的征文比赛。

对于 AI Agent 类产品,算力成本很高。用户如果不付费,很难持续用下去。Manus 很聪明,它不需要花真金白银去 Facebook 投广告,而是用自家产品的“虚拟货币(积分)”,雇佣了成千上万的用户在 Reddit 上帮它写软文、做演示。

到了 12 月,也就是收购前夕,Reddit 上已经铺天盖地全是用户夸它的长文案例。

这些内容,带来了两个结果:

1. 极大地降低了获客成本(CAC)。
2. Meta 的尽调团队展示了最真实的“民意”和活跃度。
这才是 1 亿美元 ARR 背后真正的推手。

最后,说点商业层面的思考。

今天,Manus 被收购,刚好智谱 AI 也在香港成功上市。

这标志着 2026 年将是 AI 产品的“大航海时代”。

同时,不管你是做大模型还是做应用,出海不再是备选项,是必选项。

回到开头。如果 Manus 当时选择留在国内,还在应对无休止的合规审查和舆论口水战,可能早就凉了。他们选择了断臂求生,搬去新加坡,死磕海外社区。

有时候,选择比努力重要。在一个不承认你价值的地方死磕,不如换一片承认你价值的海域。

Manus Reddit 上的这套打法——从冷启动制造稀缺,到建立信任,再到用积分激励构建内容飞轮,其实有一套完整的 SOP。

如果你也想在 2026 年把产品卖给外国人,不管是做 Reddit 运营还是整体出海营销,可以来找我聊聊。
01