即刻App年轻人的同好社区
下载
App内打开
卡尔的AI沃茨
98关注1k被关注0夸夸
公众号:卡尔的AI沃茨
让普通人轻松玩上ai
📌前字节码农|大模型六年经验|qs50
🙆分享好玩又实用的教程和测评
✊相信自己,无限进步
置顶
卡尔的AI沃茨
3年前
AI保姆级教程|ChatGPT,Midjourney,Runway

取代你的不是AI,而是比你更懂AI的人。普通人应该如何学会并使用AI产品呢?这里我推荐我开发的开源教程learnprompt.pro。初学者也不用担心,我们准备了基础、案例和高级篇的教程指南,详细讲解操作步骤。目前已经支持ChatGPT,Mid journey,Runway,后续也会开发Stable Diffusion的课程。希望大家学得开心😄
831
卡尔的AI沃茨
2天前
更新到2026.3.2版本的OpenClaw有个大雷,为了安全把工具权限和聊天能力做了隔离,用人话说就是光聊天不干活,直接变傻蛋了,问题出现在默认的配置变成了"messaging"。

那如何做快速的排查和修复呢?
如果OpenClaw本身就没有命令执行权限的话,让它自己去修复是不可能的。

所以有两种方法,

1. 本地,虚拟机,以及云服务器可以用Codex或者Claude Code做排查和修复,

用我这个提示语,

运行openclaw config get tools,查看OpenClaw的profile,如果不是full的话,切换成full,切换之后重新gateway


目前一共有5 profile,
messaging是只能发消息、管理会话
default 是默认工具集
coding是编程相关工具
full 是完整工具集,包含命令执行
all 是所有工具全开

2. 如果你安装的环境不方便用编程工具的话还有一种方法不需要编程,
OpenClaw local 模式默认端口是18789,访问127. 0. 0. 1 : 18789就可以到对话界面。有些手机版OpenClaw打开就是这个默认对话界面,

页面左侧就有一个“配置”,打开把设置的json文件格式调整到Raw,找到tools的那一行把profile改成full,

"tools": {
"profile": "full",
},

搞定!
快去看看你的龙虾是不是还聪明着!
11
卡尔的AI沃茨
3天前
OpenClaw创始人Peter Steinberger几个小时前更新了,按三个维度,成功率,速度和费用给32个模型排名,看看哪个模型最适合OpenClaw。

成功率前五是
google/gemini-3-flash-preview
minimax/minimax-m2.1
(m2.5反而垫底只有35.5%的成功率)
moonshotai/kimi-k2.5
anthropic/claude-sonnet-4.5
google/gemini-3-pro-preview

其他我们比较熟悉的模型也有上榜,买了他们家Coding Plan的可以切换成对应的模型
openai/gpt-5-nano排9
qwen/qwen3-coder-next排10
z-ai/glm-4.5-air 排第11
deepseek/deepseek-v3.2排第15

速度前五是
minimax/minimax-m2.5
google/gemini-2.0-flash
meta-llama/llama-3.1-70b
google/gemini-1.5-pro
mistral/mistral-large

这几个对应的成功率没有很高,所以我把上面前五成功率的速度也排了个序,
google/gemini-3-pro-preview排21
minimax/minimax-m2.1排22
google/gemini-3-flash-preview排25
moonshotai/kimi-k2.5排27
anthropic/claude-sonnet-4.5排28

最后就是费用排行了,
openai/gpt-5-nano
google/gemini-2.5-flash-lite
mistralai/devstral-2512
openai/gpt-4o-mini
minimax/minimax-m2.1

看到这个的时候我就已经知道第一顺位要选哪个模型了。。。
m2.1比我想象能打啊。

成功率排名前五的其他四个模型是,
moonshotai/kimi-k2.5排8
google/gemini-3-flash-preview排13
google/gemini-3-pro-preview排16
anthropic/claude-sonnet-4.5排18
所以kimi-k2.5也是不错的选择。

可以在这看看你现在用的模型有没有上榜
🔗 pinchbench.com
11
卡尔的AI沃茨
5天前
终于可以在Codex上用上非Codex后缀的模型了,GPT5.4这次有100 万上下文,Codex系列的代码能力,超出272K上下文的部份才双倍额度计费。隔壁Claude是超过200k后这一整个请求就按照2倍价了,而且价格还便宜。

GPT 5.4每百万输入2.5刀/输出15刀,
Claude Opus 4.6每百万输入5刀/输出25刀,

我提前把Obsidian交给Codex App来处理是压对了!

三天前的GPT 5.3 Instant就把说教味去掉了,这次5.4的人味也有提升,ChatGPT里还没上线,Codex App和API上线了。

我倒是看到了GPT 5.1 Instant和5.1 Thinking五天后就下线了,GPT-5.2 Thinking在6月也会下线,我发现OpenAI下线模型下上瘾了。

这次GPT-5.4有三个版本,
ChatGPT里是GPT 5.4 Thinking,Codex和API里是GPT 5.4,还有一个GPT 5.4 Pro。

还有一个新新功能,
GPT 5.4 Thinking思考的过程中我们可以中途打断了。

那我们来快速总结一下这次能力的提升,

这次联网能力升得很猛,GPT 5.4就超了GPT 5.2 Pro 4.8个点,GPT 5.4 Pro来到了89.3%的高分,OpenAI Deep Research的含金量还在C。

GPT 5.4还是OpenAI首个原生支持Computer Use的通用模型,现在很多都还在卷Browser Use(浏览器自动化),Computer Use是可以通过截图操作电脑的,我已经感觉到它会是我OpenClaw的新大脑了,用电脑这一挂它在OSWorld 测试上,GPT-5.4(75.0%)得分超过了人类(72.4%),顺带提一嘴,GPT-5.2 47.3%。

GPT-5.4还新增了图片输入模式,支持1024 万像素的全分辨率图片,在MMMU-Pro视觉理解测试中,GPT 5.4提升到了81.2%,GPT-5.2 是79.5%。

融合了GPT 5.3 Codex的编程能力的GPT 5.4 ,在Terminal-Bench 2.0上得分接近GPT 5.3 Codex了(-2.2%),但是比GPT5.2提升了12.9个点,奥特曼做梦都要笑醒了。

Codex之前还有个被人吐槽的点就是速度太慢,5.3-Codex就有改善了,这次继续优化,Codex里的GPT5.4已经有fast模式了,速度还能提个1.5倍,亲测加载我电脑所有skill和mcp的状态下比claude 4.6 opus要快。

更离谱的是,GPT5.4还可以省token了,
新机制Tool Search。

以前模型需要把所有工具定义放到Prompt,现在不用了,只需要记一个工具列表,模型要用的时候就会去加载了。

越看越觉得续费Claude Max的我像个傻子。
干脆现在就把openclaw默认模型换了🏃
11
卡尔的AI沃茨
6天前
当OpenClaw被封装成一个App,在云手机上用手机Agent控制其他App时,App即Skills!

OpenClaw又多了一个手机版,这次是把App当Skills用了

21
卡尔的AI沃茨
6天前
我发现很多朋友装了只龙虾不知道能用来干嘛,所以这篇教程出来了

花499装了只OpenClaw,然后就放那吃灰了?我不允许!

11
卡尔的AI沃茨
7天前
怎么看一个AI视频里面有没有分镜思维,

来个提示语,

一名特工在夜晚的香港街头被人追,时不时回头看对方位置露出紧张的表情,最终一边跑一边从车门跳上一辆行驶中的电车,然后在行驶晃动的电车中走向车的后方,伴随着行驶的电车男人从电车后窗回头望停下来追不上他停下原地的另一个男人。紧张,快节奏,电影感。

镜头解析,这个镜头使用可灵3做的,

第一个镜头用了低角度追拍,人物迎着镜头冲向观众的动态把紧迫感拉满。同时在画面中增加了很多和行人碰撞的场景,做出人物和环境的互动。

然后在手持晃动的跟拍镜头中,露出了人物一个有点虚焦的面部镜头。提示词中写出的男主露出紧张的表情,是用特写镜头来展现的,这是电影节奏中的呼吸位。

第三个镜头又换了一个视角,展现了人物遇到一辆电车的场景。整个电车出现的位置并不突兀,而且能够感觉到人物下一秒就会跟电车做出互动。

第四个镜头,人物跳上车的站位和他上一个镜头的动作衔接也是对应上的。

最后一个镜头是人物在车尾看到停下来追击他的男人,这里通过人物的过肩镜头来展现人物的位置关系。
00:15
11
卡尔的AI沃茨
8天前
OpenClaw从中级到高级第一步不是做龙虾分身,先把联网搜索做到极致,把X,某站,某书,播客,公众号,Reddit啥的全都解析明白,再把Deep Research装上,再加上主动订阅的信息源和OpenRouter免费兜底的大模型,这应该是目前云上OpenClaw在不方便文件互传的情况下的最佳搭配方案。

一键安装的命令我整理成文档了。

OpenClaw目前内置的联网搜索是Brave和Perplexity,一个要绑卡一个要付费。

所以我们直接先换成Tavily和Multi Search Engine v2.0.1,

- Tavily每月1000次免费调用,不用绑卡。好处就是它本身就是专门给Agent做的搜索API,返回的内容处理过了。

- Multi Search Engine集成了17 个搜索引擎(8个中文+9个全球),不需要API,安装的时候把搜索规则记下就行

但总有些难啃的链接,公众号,某书,某X的不好解析,这段时间我还装了Agent Reach和x-reader,

它们覆盖的平台是有重复的,为了安全性会在本地安装一个docker虚拟机来模拟操作,

- x-reader能覆盖yt,某站,X,公众号,tg,rss,播客,某书
- Agent Reach在x-reader的基础上多了某抖,Reddit,Github,优先用Cookie登陆不需要扫码,但我还是建议用小号。

还有一类是需要浏览器自动化的,
比方说点击确定,滑动页面,一般来说是用Playwright,

但我发现了更好用的,
BrowserWing可以记录浏览器的操作做成Skills,下次再用就可以精确重放了。

如果有一个gemini账号,还可以安ModSearch和Gemini Deep Reserach,

- ModSearch把gemini cli做成了联网搜索,Google的信息搜索本来就很强,不是反代,没有风险。
- Gemini Deep Reserach就相当于把Gemini的Deep Research能力搬到OpenClaw里面了,还是Gemini 3.1 Pro驱动的。

还有三个比较特别的,
find-skills,Clawhub和ClawFeed
find-skills和Clawhub都是让OpenClaw遇到问题主动找合适的Skills的。

把ClawFeed放在这里因为它相当于是一个被动更新的信息源,可以订阅X,RSS,HackerNews,Reddit和GitHub Trending,4个小时更新一次。

最后加个Free Ride,
很多朋友虽然已经开始用API了,但没有做额度管理,如果当时在跑一个很长的任务的话,因为速率限制直接就废了。Free Ride相当于调用了OpenRouter上的免费模型,它自动就按照质量排名了,这样的话我们不需要担心openclaw半夜停了。
314
卡尔的AI沃茨
9天前
花了三周终于把飞书+滴答+notion彻底转到Obsidian和OpenClaw了

Obsidian+OpenClaw组合技!花9分钟重构你的AI知识管理体系

00
卡尔的AI沃茨
12天前
01
卡尔的AI沃茨
13天前
每个月花5千,2026我还会忍痛笑着订阅的AI产品第二篇!

用AI成本压不下来的核心原因就是免费工具用多了,春节算账单最扎心的不是124刀的Gemini Pro和200刀的GPT Pro额度没用完,而是coding plan模型和AI视频的订阅,看起来很便宜,20刀一个月,结果就用十几次,血亏

是时候来个大扫除,
给自己定个新付费逻辑,
留了11种付费场景👇

1. 最好的就是最便宜的。好的一次过,免费的跑一天都过不了,跟AI沟通的时间也是成本。

2. 能用API就用API,只要不是无限,订阅买的也是积分,使用频率不够反而亏。不要先订阅再逼自己用,这样只会消耗注意力

3. 没有最优解,每个人使用模型的场景不一样,比方说翻译多并发下,Gemini 3 Flash很好用,换到编程就不行

那我愿意花钱产品有?

1. OpenClaw
把它当实习生,讲清楚任务的背景,产出格式和约束条件,重复任务全做成定时。成本控制靠qmd这类技能先瘦上下文。安上了不知道问啥,就先把Claude Code当常用Agent,等积累了十几个没办法解决的任务,再让OpenClaw去GitHub或ClawHub找技能做,我配的模型是Opus 4.6

2. Claude Code
我保留了CC Switch和CC的组合,搭配vercel(网站部署)和supbase(数据库)和figma(前端设计)skills,已经取消订阅cursor了。主力用Sonnet 4.6,兜底用coding plan的minimax。不要用Antigravity Tools反代了,封非常严重

3. Codex APP
能超长时间写代码和做文件管理,MCP,Skills都可视化管理。20刀的GPT Pro,ChatGPT,Codex APP,GPT Image 1.5,Sora2都用上了,要啥自行车

4. Gemini 3.1 Pro
多模态太强了,我可以把某书上AI视频首尾帧的9个破千赞视频都丢到Notebooklm,让Gemini重写。而ai studio build就是最小应用开发的神,能部署成web app,手机端也能用,摄像头麦克风等都可以调出来

5. 生图Nana Banana
现在NotebookLM做出来的PPT能用Banana二次修改了,单做美感的话用Midjourney

6. 生视频Seedance 2.0
最近降智严重,建议在网页端即梦上用

7. 语音识别
最近用闪电说语音打字频率超高,推荐Gemini 3 Flash

8. AI搜索
只留了Deep Research和Grok,X优势太大了,一次性可以收集30-40个案例

9. 个人知识库
猛推Obsidian,搭配Claudian做文件管理,openclaw有skill可以直接读取obsidian,信息全闭环。平时录信息用iphone的操作按钮快速打开备忘录,然后openclaw就可以每天定时读到ob里

10. AI音乐就Suno 5,

11. TTS(文本生成语音)目前暂时没有一个是断档第一的,11Labs、Minimax Hailuo,Index-TTS-2、Qwen3-TTS四选一

最后来个花费统计,

- OpenClaw和Claude Code用API,200刀/月起步
- GPT Pro,200刀
- Gemini Ultra,124刀
- Seedance 2.0,500块
- Grok,32.92刀

这样一算还是花了大四千啊!
25