即刻App年轻人的同好社区
下载
App内打开
阿晓Ocean
934关注1k被关注3夸夸
对世界保持好奇
阿晓Ocean
3天前
wolai 笔记 alpha 内测时就开始用,到现在已经 2000 多天了。3 年前看到 wolai 被阿里收购时,还想着终于不用担心应用倒闭后跑路了。如今看到创始人从钉钉离职的消息,感觉自己真的要转 obsidian 了。
20
阿晓Ocean
12天前
Opus的(逻辑)圆滑像欠拟合,简洁、优雅、直击重点,直到发现现实比推演复杂得多,简洁变成了漏洞百出。

GPT的(逻辑)拧巴像过拟合,全面、深入、滴水不漏,直到发现在钻牛角尖,全面变成了无效浪费。
00
阿晓Ocean
13天前
公路上汽车速度的极限并不取决于工程技术的极限,毕竟赛车的速度会比公路上车速快很多,而取决于在高速下,是否普通驾驭车的人,都能够跟得上车开的速度,是否能够确保整个公路系统安全稳定运行。 最后,对于 AI Coding 来说,会从马车时代,快速跳过人类驾驶,进入自动驾驶时代吗?但似乎准确描述需求比准确描述目的地要困难太多。

阿晓Ocean: 我们需要造一辆车,能够去掉车前的人,但是带上车上的人,以及不会伤害路上的人

00
阿晓Ocean
13天前
最近两天也在思考这个问题,不过最后思考的结果比较悲观,就是纯skill很难做成交易闭环生态。 因为技能是纯文本,无法按照使用量计费,难以杜绝盗版,二创迭代升级之后的价值归因难以清晰划分,都为交易生态的设计提供了巨量的挑战。 最后相对可行的可能会类似于知识星球里的知识付费分享,以及小红书 PDF 攻略的分享,基于社区人与人的信任,局限在小圈子里。

写增长的子木: AI Agent 生态:啥时候像 APP Store 一样,支付等环节闭环? 这样有价值的 Skill 才会更多吧?

00
阿晓Ocean
14天前
经常有人说用户对于模型没有忠诚度,但对Harness或者agent却有忠诚度,因为更好的模型来了之后,我们想要换模型只需要简单切换API即可,但是想要切换Harness,迁移记忆等文件却是更加复杂的事情。

然而我发现如果不是用于商业产品对外服务,而仅是用于自身使用,对于模型也可能存在某种忠诚度。

因为外界的benchmark不代表自身真实工作流表现。自身使用的场景下,通常没有一个完善的自动化测评流程,而是需要在实践中逐渐积累对模型能力边界的把握,积累对模型的信心。当新模型出现之后,特别是不同厂商的新模型出现之后,升级切换模型意味着需要重新花时间探索能力边界,建立这种信任,这可能带来的工作量比记忆迁移的工作量更大(记忆迁移通常只是移动一些 Markdown 文件),所以人们反而可能继续使用已有的熟悉的模型。除非目前使用的模型在某个确定性的痛点上被新模型解决,或者自己所在的行业的整个社区已经形成了明确的共识,才会尝试进行模型的迁移。

比如我目前的主力编程模型还是 GPT 5.4 [1M],在 GPT 5.5 1M 上下文下放到 Codex 之前,不会把 5.5 作为主力模型。

A 社封了 3 次号之后,也暂时没有动力尝试 Opus 4.8

大家有深度使用 Opus 4.8的,可以评论区聊聊对比GPT 5.4和 GPT 5.5 的效果(特别是 Coding 领域)。

阿晓Ocean: 在几个月前,用AI编程最大的痛点是AI的Debug能力很差,所以常常会出现“编程5分钟,Debug一小时”的情况。 当代码大部分由AI撰写时,人类进行调试所花费的时间,往往比调试自己手写代码时要多很多。 但是自从Opus 4.5 在 11 月 24 号发布之后,就能感受到AI Debug能力的明显提升。在一个多月的时间里,我都没有发现Opus长时间(半小时内)未能解决的Bug。现在,AI 编程的瓶颈从 debug,变成了代码审查。 之前用 Codex 5.1 的时候,主要用于代码审查。通常来说,在互评中,Codex 的审核更加严格,而 Claude 则更加宽松(Gemini 则最为宽松)。 但有时候严格提出的问题并非真问题,而是幻觉。同时,之前 Claude 未能解决的 bug,Codex 5.1 也都未能解决。所以我依然怀疑这只是模型输出风格的问题,是偏好问题,而不是Codex能力真的比 Claude 高。 再加上 Claude Code 的产品力比 Codex 要强太多,比如Claude Code 有 Subagent,而 Codex 没有。这样便一直没考虑切换到 Codex。 直到今天确实遇到了一个Opus 4.5 花了 40 多分钟,才勉强“解决”的复杂问题。但它的解法本质是绕过了问题,而非从根本上解决了。用 Codex 5.2,也是 40 多分钟解决了,但解法更加根本。 最近几天用 Codex 5.2 做代码审查,几乎所有的审查发现都是真实存在的。而且比 Opus 4.5 审查得到的结果,无论深度还是广度,都要更强。这两方面都让我对 Codex 5.2 的看法,相比Codex 5.1大为改观。 而我刚刚才得知的一个事实/观点是,Codex的自动上下文压缩能力非常强,在没有 subagent 的情况下,仅依靠自动上下文压缩,就能完成至少 5 小时的长程运行(且顺利完成对应工作量/复杂度的任务)。 看来是时候多用用 Codex 了。

00
阿晓Ocean
16天前
AI coding 时代,TDD 或许会成为共识,但是如何做 TDD,或许依然会存在巨大的争议与多样性。

阿晓Ocean: 准备试试 TDD(测试驱动开发),大家有何建议?以及在实际开发中,无论是前 AI Coding 时代,还是后 AI Coding 时代,大家用 TDD 吗?

00
阿晓Ocean
17天前
很真的一线 AI coding 分享,当然如果用的是 Codex 或者 Claude 就更好了。

所有认为 / 宣称软件开发已经进入了接近零成本的人都应该看看👀

组织转型实录——我把传统研发团队改成AI驱动,踩了无数坑

00
阿晓Ocean
17天前
突然意识到,对于 Multi-agent 系统也分为:相同宇宙(环境)的 Multi-agent 系统,和不同宇宙的 Multi-agent 系统。而不同宇宙的 Multi-agent 系统会让复杂度增加很多。

宇宙的分裂、融合、管理都是难点。而我一开始就在直觉的引导下,选择了更困难的方向。
00
阿晓Ocean
17天前
另一个民科的想法😁:

数学建立在公理之上。如果每个宇宙的物理规律没有任何共通之处,那么他们的公理应该也不一样,因而基于此的数学体系也不一样。但是,如果每个宇宙只是物理现象不同,但共享相同的物理规律(或至少存在某种共通性),那么不同文明可能理解其他文明的公理体系,从而实现相互翻译与沟通。

逻辑规则,是对一系列抽象符号的操作,固然能对每个宇宙都通用。但对逻辑符号的解读,可能每个宇宙完全不同。依然需要物理规律的共通性为背景,才能相互翻译与沟通。

LLM,虽然其运行依托于数学和逻辑,但训练数据依托于人类文明。可能结果的可理解性,不仅需要物理规律的共通性,还需要社会文化的共通性。

usky: 民科时刻: 如果这个世界有无数个宇宙,那么物理化学生物地理大概率每个宇宙都不一样。 而数学,并没有描述宇宙的任何特征,应该在所有宇宙都是一样的。 而计算机语言,基于逻辑规则建立,大概在每个宇宙中都能正常运行。 而LLM,虽然基于语言训练,但由于运行中计算机的逻辑系统中,大概率也能所有宇宙中运行。

10