即刻App年轻人的同好社区
下载
App内打开
无量空处_
109关注76被关注0夸夸
🐧产品经理
做过推荐策略,内容社区
现在研究AI
无量空处_
11:43
OpenAI 昨天发布了Agents SDK,核心功能包括

一、多Agent协作编排
通过声明式API简化多智能体流程设计(如审批链、数据接力),相比传统Swarm架构减少70%的代码量
内置响应式路由机制,能根据上下文动态选择调用本地工具、第三方API或人类审核节点

二、标准化Agent模板
提供预配置的Agent类型(如客服机器人、数据分析助手),支持自定义指令集与工具访问权限
典型用例:企业内网知识库调用+实时网页搜索+代码执行沙箱的三层校验架构

三、安全与可观测性
Responses API内置网页搜索/代码执行工具,避免开发者重复造轮子的同时,通过沙箱隔离降低安全风险

openai.com
00
无量空处_
3天前
Manus可以在任务完成后,提炼出用户的一些个性化偏好并在下次执行时对齐(比如demo视频里那个简历筛选后存到excel的案例),想问一下这个是怎么实现的?会有一个类似于反思的agent,去review Manus和用户交互过程中的用户偏好吗?

艾逗笔: 以 manus 为例,拆解以 multi-agent 为基础的通用任务智能体的工作流程: 一. 意图识别 1. 获取用户输入内容,进行必要的意图识别和关键词提取,比如用户输入的是“想去日本旅游,需要一个旅行计划”,拆解之后得到的关键词是: japan-trip,任务类型为:travel 2. 如果用户输入的需求比较简单,不能识别用户的意图,此步骤可以引导用户继续对话,补充更多的信息,或者上传文档 / 图片等资料 二. 任务初始化 1. 用识别出来的任务关键词创建任务文件夹,启动 docker 容器,为后续的任务执行做环境隔离 2. 任务执行过程中的内容产物,写入到任务文件夹,任务结束之后清理 docker 容器 三. 步骤规划 1. 使用意图识别的结果 + 补充背景信息,请求一个推理模型,对任务进行步骤拆分 2. 将任务拆分的步骤信息,写入到任务文件夹的 todo.md 四. 任务执行 1. 遍历任务文件夹中的 todo.md,[ ] 表示待执行的任务,[x] 表示已执行的任务 2. 取出待执行的任务,带上任务上下文信息,做一次 function call,这里带上的 function tools 是系统内置的可以执行不同任务的 agent,比如 search agent / code agent / data-analysis agent 3. 根据 function call 的结果,调度指定的 agent 执行任务,把执行过程中产生的内容,写入到容器中的任务文件夹 4. 任务执行完,由主线程,更新 todo.md,继续下一个任务 五. 归纳整理 1. todo.md 里面的任务全部执行完之后,主线程针对用户的初始需求,做一次整理输出 2. 把任务的内容产物,给到用户浏览或下载(文档 / 代码 / 图片 / 链接等) 3. 收集用户对任务的满意度 ---- 整个方案理下来,核心在于执行任务的 agent 设计,以及主线程的调度流程,以 search agent 为例,在处理“日本旅行计划”这个任务中,主要的执行步骤: 1. 拿到 japan-trip 等关键词信息,调用谷歌第三方 API,获取 10-20 条搜索结果 2. 模拟浏览器点开第一个网页,浏览网页内容,获取网页文本内容 + 浏览器截图拿到网页视觉信息 3. 调用支持多模态输入的模型,输入当前任务要求,从当前浏览的网页中提取有效信息(是否有符合要求的结果,如果不满足要求,返回下一个该点击的 button 元素) 4. 模拟浏览器点击 + 网页滚动行为,拿到更多的网页内容 + 视觉信息,重复几次,直到收集到的内容满足任务要求为止 5. 把收集到的内容保存到任务文件夹 这个 search agent 的核心在于模拟用户浏览网页行为,需要用到无头浏览器和多模态模型。 code agent 和 data-analysis agent 相对而言比较简单: 1. 根据任务需求,创建本地文件,写入代码(python 代码做数据分析,html 代码做视觉呈现) 2. 通过系统调用执行代码,把执行结果保存到任务文件夹 3. 通过 code-preview 服务,预览 html 文件的内容 --- 此类 multi-agent 产品,还有一些改进的空间: 1. todo.md 的多个任务,是线性依赖关系,可以使用 DAG(有向无环图)实现更加复杂的任务依赖 2. 需要引入自动化测试 agent,对任务结果进行判断和矫正,如果对某个步骤评分过低,需要回溯到之前的某个任务节点重新执行 3. 允许全自动 + 用户介入的混合模式,在某个步骤执行完,先寻求用户反馈,如果几秒内没收到反馈,则自动继续运行 --- 整体评价:manus 在工程层面做了很多工作,整体交互比其他产品好很多。技术层面,依然是没什么壁垒,对模型有比较深的依赖: 1. 也许有个小模型,做任务执行前的意图识别 2. 任务规划和推理,用 deepseek-r1 3. 图片识别 + 代码生成,用 claude-3.7-sonnet token 消耗会很高,能不能广泛用起来,取决于谁来负担这个成本。 最终的任务准确性和用户满意度,还需要更多的案例来说明。

00
无量空处_
7天前
Agent当前的最大限制可能已经不是planning和执行的能力了,而是受限于可以调用的api/工具,而这些是依赖于团队所在的生态。

Manus这一波会不会又是产品上做出了一个类似ds的good case,然后大厂结合自己的生态,快速跟进最后摘走果子?

无量空处_: 逐帧拆解了一下Manus的demo视频:【初识 Manus AI-哔哩哔哩】 https://b23.tv/iCHoftl 任务一:简历分析 较标准化的分析任务,模型的内置知识可以独立完成,但展现了产品设计上的用心 1.完全异步:在云端执行,用户可以离开屏幕 2.随时打断:用户在Manus执行过程中可以提出新要求,比如再丢5个新简历 3. Manus computer:展现agent执行过程的中间结果,写了什么笔记,写了什么代码,用了什么工具 4. 反思优化:应该有内置反思agent/模块,会review与用户交互的过程,自动对齐用户的偏好和思考过程 任务二:在纽约根据用户的需求选房产 复杂的通用任务,展示了模型强大的综合能力 1.任务规划:Manus会先写自己的Todo,进行任务拆解 2.查询外部信息:使用浏览器查资料,会操作网页上的交互按钮 3.使用工具:代码只是Manus的工具之一,如果某个任务需要,比如计算房价是否满足用户预算,Manus会自己写代码去算 任务三:股票相关性分析 垂直的专业问题 1.能查询专业数据的API 2.能做数据可视化 3.可以直接做出可视化网站并部署

00
无量空处_
7天前
逐帧拆解了一下Manus的demo视频:【初识 Manus AI-哔哩哔哩】 b23.tv

任务一:简历分析
较标准化的分析任务,模型的内置知识可以独立完成,但展现了产品设计上的用心
1.完全异步:在云端执行,用户可以离开屏幕
2.随时打断:用户在Manus执行过程中可以提出新要求,比如再丢5个新简历
3. Manus computer:展现agent执行过程的中间结果,写了什么笔记,写了什么代码,用了什么工具
4. 反思优化:应该有内置反思agent/模块,会review与用户交互的过程,自动对齐用户的偏好和思考过程

任务二:在纽约根据用户的需求选房产
复杂的通用任务,展示了模型强大的综合能力
1.任务规划:Manus会先写自己的Todo,进行任务拆解
2.查询外部信息:使用浏览器查资料,会操作网页上的交互按钮
3.使用工具:代码只是Manus的工具之一,如果某个任务需要,比如计算房价是否满足用户预算,Manus会自己写代码去算

任务三:股票相关性分析
垂直的专业问题
1.能查询专业数据的API
2.能做数据可视化
3.可以直接做出可视化网站并部署
12
无量空处_
18天前
这一波拉到同一起跑线后,第一个跑的最快的是之前跑得最慢的腾讯

yusen: 2025年会很精彩,大厂和创业公司都需要开始奔跑。

00
无量空处_
22天前
微信搜一搜直接导流到元宝啊?!

到底是元宝支持微信搜一搜,还是微信搜一搜支持元宝?

今天,和元宝挽手走进AI的殿堂

00
无量空处_
1月前
家里的亲戚长辈不懂什么是AI,但他们格外喜欢这种用自己宠物生成的拜年视频。已经让我帮着做了好几个了

元宝春节特效的需求洞察还是准,普通老百姓喜闻乐见的才是有生命力的。
00:05
00
无量空处_
1月前
持续使用万物追踪中。这款产品真的强推大家都去试试。具体可以进我主页看前面发的帖子

但我一开始使用的时候,差点要放弃,这就是我觉得现在这个版本最大的问题,它在产品上并没有引导用户找到aha moment。

产品里里面充满了大量别人已经捏好的bot,而且很多是娱乐,生活类的,整个产品看上去就像一个普通的信息订阅产品,不够sharp。一旦用户随便点了几个别人捏好的bot,就会被大量并不感兴趣的信息淹没,然后就没有然后了。

所以我觉得这个产品在冷启动时期的核心不是“让用户随便订阅点什么”,而是快速进入“定制自己的第一个bot”的流程,并且在话题类目上,引导用户聚焦于商业,财经,投资这些类目,这些类目用户才更有“持续追踪 不想错过的需求”。

#AI工作流
2613