即刻App年轻人的同好社区
下载
App内打开
Random_thoughts
2天前
OpenAI harness 那篇文章预定今年的年度文章了。 (Karpathy autoresearch 也启发了我)

刚参考这个思路试了下:让 AI 去做一个 普通音频转微信语音 的功能,我只负责给详细的验收条件和想到可能要用到的所有 context。
然后我就眼睁睁看着它自己跑了一个小时:自己跑通流程,打开测试后台去跑测试;中间遇到前置条件不满足、跑不通的地方,AI 还会主动发消息提醒我排查问题,直到最后成功把语音发了出来。不仅如此,它甚至能自动监听线上服务的部署,部署完直接帮我做线上自动化测试……
看到最后语音成功发送的那一刻,真的是汗毛立起来了。

相信今年的一个必然趋势:可验证的结果驱动 AI + AI 充分的基建与上下文权限(比如公开日志、Metrics、文档、测试甚至生产环境权限)。
这种“以终为始”的结果+约束驱动模式,非常像一种 Agent 维度的、加强版的“反向传播”(或者类似 DSPy GEPA)。只不过中间执行迭代和纠错的,变成了更智能的 Agent, 2026可能真的是 AI review 取代 人工 review 的一年了。
14

来自圈子

圈子图片

人工智能讨论组

474317人已经加入