即刻App年轻人的同好社区
下载
App内打开
熊猫ai甘蔗
1月前
Anthropic CEO Dario 提到今年年初,swe-bench sota 4%,现在是 50%,明年可能到 90% ,那么软件行业会发生什么?
swe-bench 使用真实的 github issue 作为测试。当然目前的 bench 到了 90 后,我们可以增加 bench 的难度,需要更多 context ,只有更少的 test case。但到一定的程度就好像把围棋盘从 19x19 变成 29x29,AI 搜索固然慢了,人自己到时候能理解这个新游戏吗?
00

来自圈子

圈子图片

AI探索站

79790人已经加入