跟
@钟十六 周末一起研究了Manus,通过自己上手体验和看其他人的replay,大致判断,Manus目前虽然不是很实用,但依然是非常优秀的Agent产品探索,而且未来会随着底模进步,RFT强化,tool use兼容性提高,产品的体验会更好。
1. Manus是目前对普通人来说产品体验最好的Agent,尤其在过程可视化,交互简洁优雅,甚至replay重放带来的内容增长杠杆
2. 核心逻辑是,通过Claude做规划,拆解出todo.md,然后基于每个todo,由Qwen + post train做每个具体任务的强化,在虚拟机上通过browser use、computer use等来完成搜索、数据分析、网页浏览、写代码等任务,单个todo完成后,会把中间产物以summary.md的形式做总结,类似cursor的single page来压缩代码项目的上下文。最后把前面的系列中间产物汇总,出来一个最终交付产物,可能是报告文件,或者转为网页、视频、PPT。
3. 虽然是less structure, more intelligence,但当前的架构,是短期有效而长期天花板有限的。Manus可能预设了一套非常简单清晰的workflow:1)把用户prompt拆为todo;2)把每个todo去执行,形成中间产物;3)把中间产物汇总,整合成为最终产物。
跟OpenAI的deep research的真正的全链路的端到端训练还是不一样,跟我们人类真实的边做边查边推翻调整的实际过程也不一样。所以其实很多前后的todo在执行时有点割裂,导致最终的结果不是很可信。
4. 如果实现真正的端到端训练,Manus应该会更强,但是这个训练也非常难,因为通用Agent的任务、接受的问题、执行的生产环境,都太开放了,很难设置reward model,不像单纯的数学和代码。
5. 目前Manus基于这套很通用的产品交互和框架,应该会努力先跑通一部分垂直场景任务,用户的预期没有那么高,对应交付的结果也容易满足预期,比如实习生写分析报告,先保证一部分用户的留存,然后随着模型和工程化能力提升,任务逐渐泛化,直到真正成为通用Agent
备注:我是做多模态应用,不是专业做LLM和Agent的,所以上述分析也不一定对,仅供参考