即刻App年轻人的同好社区
下载
App内打开
阿晓Ocean
1k关注1k被关注3夸夸
对世界保持好奇
阿晓Ocean
13天前
好消息是,Opus 4.6 100 万上下文模型发布,距离上次许愿正好一个月。

坏消息是 "The long context beta is not yet available for this subscription."

阿晓Ocean: 现在 Opus 4.5 最大的痛点在于上下文长度太短,只有 20 万。期待 Anthropic 今年第一个发布的模型是100 万上下文的 Opus 4.5 。

00
阿晓Ocean
18天前
想做个小调查:对于已经用上了 OpenClaw / Clawdbot / MoltBot 的用户来说,你们都是怎么部署的?用起来感觉怎么样?

1. 电脑类型是什么?

A. 闲置的旧设备
B. 主力机中安装虚拟机
C. 云主机
D. 新买的独立设备
E. 直接用主力机
F. 其他
G. 没用上 / 不打算用,纯旁观

2. 电脑系统是什么?

A. mac
B. linux
C. windows
D. 其他

3. 模型供应商 / 供应方式是什么?

比如:kimi 国内 coding 套餐、minimax 海外 api、openrouter、claude api、claude 套餐,等

4. 模型型号是什么?

比如:minimax m2.1,kimi k2.5,zhipu glm4.7,claude opus 4.5,gemini 3 pro,gemini 3 flash,gpt 5.2

5. 主要的使用场景是什么?

A. 在人类社交网站上看帖/发帖/回帖
B. 聊天 / 问答 / 咨询 / 陪伴
C. 写代码 / 审代码 / 软件运维 / 数据分析
D. 日程管理 / 邮件管理 / 信息管理 / 健康管理
E. 查资料 / 下载资料 / 整理资料 / 爬虫
F. 写文档/做 PPT / 处理 Excel / 处理 pdf
G. 图片 / 视频 / 音频处理
H. 智能家居控制
I. Agent 社区(如moltbook/clawcity)上看帖/发帖/回帖/自己玩
J. 让它自己给自己添加各种能力 / 让它自由进化
K. 让它自己赚钱 / 炒股 / 炒加密货币
L. 单纯探索它的能力上限 / 就想知道它能干点啥
M. 操作浏览器/电脑/手机的杂活
N. 其他
O. 缓解我的 FOMO 情绪
P. 屁用没有

6. 对使用效果满意吗?

A. 非常满意
B. 比较满意
C. 还行
D. 不太满意
E. 非常不满意
145
阿晓Ocean
18天前
2,用Kimi或MiniMax感觉能力不太够,想用Claude,但API太贵,用套餐怕封号

余一.Dev: 好奇,Moltbot(OpenClaw)大家状态是: 1重度使用 2.用过放弃 3.只安装了 4.还没安装

00
阿晓Ocean
18天前
如果按照连续可靠执行任务的时间来衡量 AGI 的话,那么似乎唯一重要的参数是:你认为智能翻倍的时间是多少?

这个时间和 AGI 距现在的时间成正比,而其他的参数都在对数里,没有那么重要:

1. 如果你认为每 7 个月翻一番,那么 AGI 将在 5 到 10 年内实现
2. 如果你认为 1 到 2 年内就能实现,那么需要要求每 1 到 2 个月就翻一番
3. 如果你认为它和摩尔定律类似,每 21 个月翻一番,则大概是 15 到 30 年之后

参考:metr.org

与 GPT 的完整对话见:chatgpt.com
00
阿晓Ocean
20天前
以Kimi k2.5为基模,用了两天clawdbot,效果不太行,感觉离实习生还差很远。既没有看到它的任何主动性,去做什么我没要求的事,在完成我要求的事情上,基础的搜索和浏览器操作能力也不太行。不确定是k2.5不行,还是clawdbot不行。 最后结论是,还是得多用manus和claude code。

阿晓Ocean: 或许 Manus 应该上线一个长期云电脑的功能,以区别于现在的一次性短期沙盒。用户在开启一个会话之前,可以选择使用长期云电脑还是一次性沙盒。如果使用长期云电脑,则数据、文件、安装应用、账户资产都可持续积累,就相当于一个 clawdbot 了。 当然,用户得加钱。 以及,即使是云电脑,依然要做权限管理与数据备份,如果一不小心删了用户云端的资产,也是资产啊。

01
阿晓Ocean
20天前
或许 Manus 应该上线一个长期云电脑的功能,以区别于现在的一次性短期沙盒。用户在开启一个会话之前,可以选择使用长期云电脑还是一次性沙盒。如果使用长期云电脑,则数据、文件、安装应用、账户资产都可持续积累,就相当于一个 clawdbot 了。

当然,用户得加钱。

以及,即使是云电脑,依然要做权限管理与数据备份,如果一不小心删了用户云端的资产,也是资产啊。
11
阿晓Ocean
1月前
预测、许愿和咒语,它们的联系和和区别是什么?
01
阿晓Ocean
1月前
在几个月前,用AI编程最大的痛点是AI的Debug能力很差,所以常常会出现“编程5分钟,Debug一小时”的情况。

当代码大部分由AI撰写时,人类进行调试所花费的时间,往往比调试自己手写代码时要多很多。

但是自从Opus 4.5 11 24 号发布之后,就能感受到AI Debug能力的明显提升。在一个多月的时间里,我都没有发现Opus长时间(半小时内)未能解决的Bug。现在,AI 编程的瓶颈从 debug,变成了代码审查。

之前用 Codex 5.1 的时候,主要用于代码审查。通常来说,在互评中,Codex 的审核更加严格,而 Claude 则更加宽松(Gemini 则最为宽松)。

但有时候严格提出的问题并非真问题,而是幻觉。同时,之前 Claude 未能解决的 bug,Codex 5.1 也都未能解决。所以我依然怀疑这只是模型输出风格的问题,是偏好问题,而不是Codex能力真的比 Claude 高。

再加上 Claude Code 的产品力比 Codex 要强太多,比如Claude Code Subagent,而 Codex 没有。这样便一直没考虑切换到 Codex。

直到今天确实遇到了一个Opus 4.5 花了 40 多分钟,才勉强“解决”的复杂问题。但它的解法本质是绕过了问题,而非从根本上解决了。用 Codex 5.2,也是 40 多分钟解决了,但解法更加根本。

最近几天用 Codex 5.2 做代码审查,几乎所有的审查发现都是真实存在的。而且比 Opus 4.5 审查得到的结果,无论深度还是广度,都要更强。这两方面都让我对 Codex 5.2 的看法,相比Codex 5.1大为改观。

而我刚刚才得知的一个事实/观点是,Codex的自动上下文压缩能力非常强,在没有 subagent 的情况下,仅依靠自动上下文压缩,就能完成至少 5 小时的长程运行(且顺利完成对应工作量/复杂度的任务)。

看来是时候多用用 Codex 了。
20
阿晓Ocean
1月前
非常离谱的体验:现在在 Anti-Gravity 里面,同时用 Claude Code CLI Codex IDE 插件。

Claude Code 经常出现闪烁问题,闪着闪着 Anti-Gravity 就崩掉关闭了。每次 Anti-Gravity 关闭重启之后,Codex 的插件图标就会消失,需要卸载再重装才能看到。

Anthropic 是想留着这个 bug 间接挤掉 Codex 份额嘛 🐶
11