AI能不能自己接单?
这个研究项目让各路顶级AI挑战240个外包项目,结果最优秀的AI也只有不足3%的工作能够交付!(这个AI是Manus)
换句话说你想让AI全自动交付有质量的结果还是很困难的,可以预见很长一段时间内还是需要人类介入。
这240个外包项目是在国外的外包工作平台上挑选出来的,代表了主流的人类工作。平均每个项目需要28个小时。其中哪些项目是AI擅长的呢?——图像,音视频处理,广告文案,报告等。
报告一方面给所谓号称啥都能干的AI agent泼了冷水,另一方面也指出新模型普遍比老模型表现好,所以技术是在进步的,项目完成率只会越来越高。
文章把论文方法论做了提炼,构建了一个AI评估框架在最后。
有兴趣可以看看,欢迎点赞收藏分享❤️