即刻App年轻人的同好社区
下载
App内打开
钟十六
750关注1k被关注0夸夸
阶跃星辰 产品 ex 美团 阿里
正在探索帮人类做梦的方法👣
公众号: 016数据🥳即刻是碎片思考记事本🦉面向自己输出
置顶
钟十六
1年前
目标: 帮人类做梦,还原创作的乐趣
82
钟十六
07:07
新的命题是,如何用 rft 做好各种端到端 agent 训练,激动且期待

Kenny_肯尼: 跟@钟十六 周末一起研究了Manus,通过自己上手体验和看其他人的replay,大致判断,Manus目前虽然不是很实用,但依然是非常优秀的Agent产品探索,而且未来会随着底模进步,RFT强化,tool use兼容性提高,产品的体验会更好。 1. Manus是目前对普通人来说产品体验最好的Agent,尤其在过程可视化,交互简洁优雅,甚至replay重放带来的内容增长杠杆 2. 核心逻辑是,通过Claude做规划,拆解出todo.md,然后基于每个todo,由Qwen + post train做每个具体任务的强化,在虚拟机上通过browser use、computer use等来完成搜索、数据分析、网页浏览、写代码等任务,单个todo完成后,会把中间产物以summary.md的形式做总结,类似cursor的single page来压缩代码项目的上下文。最后把前面的系列中间产物汇总,出来一个最终交付产物,可能是报告文件,或者转为网页、视频、PPT。 3. 虽然是less structure, more intelligence,但当前的架构,是短期有效而长期天花板有限的。Manus可能预设了一套非常简单清晰的workflow:1)把用户prompt拆为todo;2)把每个todo去执行,形成中间产物;3)把中间产物汇总,整合成为最终产物。 跟OpenAI的deep research的真正的全链路的端到端训练还是不一样,跟我们人类真实的边做边查边推翻调整的实际过程也不一样。所以其实很多前后的todo在执行时有点割裂,导致最终的结果不是很可信。 4. 如果实现真正的端到端训练,Manus应该会更强,但是这个训练也非常难,因为通用Agent的任务、接受的问题、执行的生产环境,都太开放了,很难设置reward model,不像单纯的数学和代码。 5. 目前Manus基于这套很通用的产品交互和框架,应该会努力先跑通一部分垂直场景任务,用户的预期没有那么高,对应交付的结果也容易满足预期,比如实习生写分析报告,先保证一部分用户的留存,然后随着模型和工程化能力提升,任务逐渐泛化,直到真正成为通用Agent 备注:我是做多模态应用,不是专业做LLM和Agent的,所以上述分析也不一定对,仅供参考

50
钟十六
1天前
调整一下,重新观察了 manus use case,发现没有用文中的方式,但这样 manus 的方案会导致几个问题

1. 没有基于返回的内容,动态调整思考过程的能力,某种程度上,是一种负面的 structure ,比如做 search 不能基于当前搜索到的内容,调整后续的搜索词

2. 没有端到端优化执行节点的能力,各个执行节点的效果不 ok,比如拆 query 时拆的有问题

钟十六: 记录了一下最近的研究和思考: 1. 对于openai的deep reseach实现原理推测; 2. 对于Agent平台的讨论,包括了为什么我觉得当前 agent 这么重要,也包括了实现路径、规模效应和路径规划的思考; 讨论一个agent 最后一定要讨论它的交付结果,很多复杂的 workflow,能带来看似类似的交付流程,但带不来类似的效果,或持续优化的潜力

12
钟十六
1天前
记录了一下最近的研究和思考:

1. 对于openai的deep reseach实现原理推测;
2. 对于Agent平台的讨论,包括了为什么我觉得当前 agent 这么重要,也包括了实现路径、规模效应和路径规划的思考;

讨论一个agent 最后一定要讨论它的交付结果,很多复杂的 workflow,能带来看似类似的交付流程,但带不来类似的效果,或持续优化的潜力

聊聊Openai Deep Research、Manus原理,和Agent平台

36
钟十六
3天前
想从任务分层去看这个事

1. 任务有长链路任务和短链路任务,有需要决策选择的任务和不需要选择的任务

2. 过去的模型能力不成熟,大多只能做 copilot,即大多交付用户的任务结果有不稳定性,或是提供信息做决策辅助

3. 今天大模型推理能力提升,并且 rft 这套范式可能会带动模型在这块的能力继续进步,且有泛化的可能。这个带来了:

1)当前的纯执行的长短链路任务,都有明显的进步,可以是 agent。当前也能在部分简单决策,和一些特定领域里的较复杂的决策(oai dr) 里,做的好了

2)未来的任务稳定性、更广泛领域里也有机会在新范式下进步

julian.: 再给“行业共识”破盆冷水:我不认可 agent 这个方向,反而 copilot 的 in-context 交互是更重要的。 1. 我不认可 agent 这个方向。逻辑上大家当然能说手机和电脑的 ui 分两类,一类是 gui、另一类是 lui。这种分类被提出时,说出这种话和听到这种话的人在语言层面已经把这两类的注意力权重放在同等位置上了。但让我们回归生活,你会发现 gui 的效率真的很高。你想象自己打开手机、点开 app、上下滑的具体动作,你可能太习惯了以至于没觉得这是如此的丝滑。每次打字、说话,远比即时点击图标笨重 ,lui 的 agent 叙事没有给第一视角的生活经验以足够的尊重。至于长程任务,人在这些任务里也类似于强化学习,plan - execute - learn 的循环不断接力(人是环境的反应器),本就是社会博弈和动态规划的过程。所谓一个 agent 来总包,会涉及到复杂的权限和边界设置选项,更要不断和人主观意志的对齐(对齐的交互成本也很高)。现在叙事里常用词是“完全懂你的 agent”,可你自己懂下一秒的你自己吗? 2. copilot 的 in-context 交互是更重要的。现在产品实际 pmf 的原因,我倾向于早已不是底座模型能力提升带来的了,而是产品交互变化带来的。cursor 不是因为 claude 更新了一版于是牛逼,而是找到了轻松读和写本地代码文件的交互。github 插件只能读,cursor 特意做 ide 的原因就是为了一键“写 / apply”的这个丝滑交互。不是用户、没干过产品经理、天天听由标签串联起来的叙事,就不容易想清楚价值分配里啥是关键的。 无论是 ai 还是其他任何科技,我们的分析首先应回归真实的生活。不作用于人们生活而只体现在文章和估值里的科技,可能不是我想要的。当然总有人为了自身利益无视其他人的生活,还嘲笑其他人看不懂;我对此保持沉默。

00
钟十六
4天前
在研究两个问题:
1. qwen 作为 planing,这个长链路规划能力,主要是 sft 做的,还是上了 rft

2. 听着宣传像是没有 workflow ,端到端进行了优化;但能想象到的是用 workflow 实现的,plan+action 后,再 review 和plan,不知道实际是哪种

Kenny_肯尼: 半夜下班的我,依然没有拿到 manus 邀请码,但看到围绕 manus 的争议很大,按我的工作经验,提供一些信息参考 1. 创新产品发布第一天,一般是不会投入很多预算做营销的,因为软广硬广投放很花钱,新产品连留存都不好说,更别提商业化,意味着 roi 很难打正,大厂和创业公司的钱也不是大风刮来的。 2. 新项目要学会用巧劲做营销,核心先吸引到目标用户,拿用户反馈,判断这个产品的空间有多大,以及迭代方向。如果不做任何营销,产品没人用,那可能就夭折了 3. 最牛逼的营销,是你成为流量本身,自媒体通过讲你,来蹭热点,比如 deepseek,比如黑悟空,但这个几乎不可能计划出来,爆款就是玄学,我过去两年都在做 AI 爆款,最深刻的体会就是这句话 我最好奇的还是,manus 如何把现有的技术组合为 c 端可用的产品,以及在哪些场景任务表现的比较好。公司 AI 群有同事搞了一个 manus 的 replay 链接合集文档,准备周末挨个研究,然后再来判断 manus 是不是一个真正跑通的通用 Agent,而不是偏噱头的 devin

191
钟十六
4天前
Agent 使用接口解决高频、注重体验的、定制化场景
Agent 使用 UI理解加节点操作,解决长尾场景
70
钟十六
5天前
一直没理解,在 deep research 模型看完网站,即使模型最后觉得不用的,也是会放到上下文里么🤔
11
钟十六
8天前
测试结论:

1. 推理模型(主要测试 deepseek r1),不能用写不写 system prompt 来看是不是效果变差,而是 promot 里有不必要的约束和策略干预,会导致效果变差;

2. 对于该推理模型本身表现不好的场景,需要在 prompt 里写上一些思路或者策略;

钟十六: 为啥我感觉 deepseek r1 推荐的最佳配置不太佳🤔

00
钟十六
9天前
确实有一种,新时代来临的感觉
00