即刻App年轻人的同好社区
下载
App内打开
无量空处_
115关注77被关注0夸夸
🐧产品经理
做过推荐策略,内容社区
现在研究AI
无量空处_
7天前
即梦3也还是有差距

歸藏: 在餐具里做微缩景观也是4o一个很好玩的玩法 发散了一下:茶碗里面是一个中式的园林、咖啡杯里是一个咖啡馆 提示词1: 一个逼真且充满趣味的微型现代咖啡馆,热闹地呈现在一个盛满咖啡的马克杯里。这微缩咖啡馆包含一个迷你吧台,上面可能有微小的咖啡机和磨豆机,几张小桌子旁坐着微缩的顾客人偶,墙上(马克杯内壁)或许有迷你的菜单板或装饰画。 真实的咖啡液面构成了咖啡馆的“地板”,上面可能还漂浮着微小的“拉花”图案。马克杯放在一张咖啡桌或吧台上,旁边可能是一个真实的羊角面包、笔记本电脑或糖罐,形成了微缩商业空间与日常饮品间的超现实对比。超写实风格、微距摄影、浅景深(焦点集中在咖啡馆内生动的场景和人物上)、明亮而柔和的、模拟咖啡馆的自然采光或室内灯光、高细节(体现在微缩设备的金属质感、人物的姿态和咖啡馆的装饰细节上)。 提示词2: 一个逼真的微型古代园林景致,巧妙地呈现在一个古朴的陶瓷茶碗之中。这微缩景观包含精心布置的假山、微小的亭台楼阁、蜿蜒的石径和象征性的水面(或极浅的真实水面)。 几株形态优雅的微型松树或竹子点缀其间,或许还有细小的苔藓覆盖着“山石”。茶碗被放置在一个典雅的木质茶盘上,旁边可能放着一个紫砂壶或几块中式茶点,形成了古雅与微观世界间的超现实对比。超写实风格、微距摄影、浅景深(焦点集中在园林细节上)、柔和的、略带暖意的自然光、高细节(体现在微缩建筑的雕刻、植物形态和山石纹理上)

00
无量空处_
16天前
你说的对,我想表达的是在用户需求的视角来看,AI搜索,chatbot,还有Agent以后的心智是差不多的,都是“我有个问题让AI帮我回答/解决了”,以后三者的产品形态会逐渐趋同,各家都会朝着智能助手这个形态演化 //@麦门忠实信徒: 最近也在思考这个问题:长远来看,AI搜索和Agent有没有区别。

我的理解是有很大区别,Agent能干AI搜索的活,反过来就不行

从二者的侧重点:
AI搜索:更侧重信息的处理,本质是对已有信源的已有信息,做筛选、辨别、提炼,最后总结一个结论输出。
Agent:更侧重行动,行动的决策点不一定来自于已有信源,可能是模型在历史任务中的“经验”

从应用侧落地:
做AI搜索的企业/应用,从ROI的角度,大概率只让AI搜索解决“信息处理”的问题,因为大部分人用搜索,是为了快速获取答案
做Agent的企业/应用,重点是需要解决,Agent的规划能力、问题拆解能力、工具调用能力,这个时候AI搜索变成了其中的一种工具

刘飞Lufy: AI agent 相较于 AI 搜索,可以解决的一大痛点就是,能 设法打破如今互联网割据的内容孤岛,尽可能找到优质的信息。 像今天用 DeepSeek 搜出的答案错得离谱,看了下原始网页,整个就是牛皮癣广告。显然会严重污染 AI 的数据来源。

00
无量空处_
28天前
感觉AI搜索把信息源整合做好,或者引入类似deep research那样的多次检索+反思的模式也可以解决你说的这个问题

往长远来说,AI搜索可能以后都是Agent,两者没有明显边界了

刘飞Lufy: AI agent 相较于 AI 搜索,可以解决的一大痛点就是,能 设法打破如今互联网割据的内容孤岛,尽可能找到优质的信息。 像今天用 DeepSeek 搜出的答案错得离谱,看了下原始网页,整个就是牛皮癣广告。显然会严重污染 AI 的数据来源。

00
无量空处_
28天前
其实现在做搜索的都必然会升级自己为“AI搜索”,搜索和chatbot的竞争边界也越来越模糊,因为除了传统的寻址需求以外,用户用两种产品的需求是高度重合的,以后搜索引擎和chatbot都是往智能助理的方向去演化。

Agent的话个人觉得以后是通用逐渐吞噬掉垂类,就像之前的垂类Agent很多,但Manus验证了通用agent是更符合用户直觉的,因为普通用户很少能记住某个场景要去用某个垂直Agent这种高门槛的事情,以及很多低频的中长尾的碎片化需求在出现时,用户很难当下想到要用哪个垂直Agent去解决,而是会去寻找一个通用Agent来试一试,可能通用Agent底层是意图识别后,往各个垂类Agent去做分发需求

托马斯骆: 最近经常跟别人讨论两件事: ​ ​1. AI 搜索是不是一个伪存在? (Prompt 即需求,现在输入。prompt就相当于过去“搜索”的动作;而模型生成结果的过程内化了搜索这个步骤,以推理的方式呈现出结果。因此,大语言模型与搜索引擎基于人类同一类诉求,前者明显智能于后者,因此 AI 搜索不存在)。 ​ ​2. 通用Agent存在不存在?(Agent 就是AI应用的一个典型形态甚至是标准形态,the automation of task execution,那你见过一个能解决所有需求的应用么?所以Agent是依托产业场景私有数据的,那就不存在通用Agent)。 ​ ​看了夸克的最新动作,我的看法有一些新的更新: ​ ​1. AI搜索确实是一个伪存在。不能因为模型有了搜索能力就说它是搜索。当人们看到一个框,就会觉得它是搜索用的,但AI成为一种工具之后,框是一个计算生成结果的需求处理窗口,它的功能不局限于搜索。夸克这次是明确地表示它的框不是一个搜索引擎窗口,而是一个复杂的AI需求入口,甚至是AI超级应用入口。 ​ ​2. 通用Agent是不是成立,取决于对通用的定义,通用如果不被理解为千行百业,而被理解为人们普遍存在的,不依托于专业知识和职业技能的,超越聊天和对话功能的操作性AI需求,那通用就是在某种意义上成立的。人们就需要一个模型层之上的有通用和泛化能力的工具层,这个工具层是一个multi agents组合,与模型层有着很好的基于理解的交互和操作。更多的人是希望尽可能通过一个窗口去解决这个问题的。这可能就是夸克说的AI超级框,let's see what will happen.

00
无量空处_
1月前
OpenAI 昨天发布了Agents SDK,核心功能包括

一、多Agent协作编排
通过声明式API简化多智能体流程设计(如审批链、数据接力),相比传统Swarm架构减少70%的代码量
内置响应式路由机制,能根据上下文动态选择调用本地工具、第三方API或人类审核节点

二、标准化Agent模板
提供预配置的Agent类型(如客服机器人、数据分析助手),支持自定义指令集与工具访问权限
典型用例:企业内网知识库调用+实时网页搜索+代码执行沙箱的三层校验架构

三、安全与可观测性
Responses API内置网页搜索/代码执行工具,避免开发者重复造轮子的同时,通过沙箱隔离降低安全风险

openai.com
00
无量空处_
1月前
Manus可以在任务完成后,提炼出用户的一些个性化偏好并在下次执行时对齐(比如demo视频里那个简历筛选后存到excel的案例),想问一下这个是怎么实现的?会有一个类似于反思的agent,去review Manus和用户交互过程中的用户偏好吗?

艾逗笔: 以 manus 为例,拆解以 multi-agent 为基础的通用任务智能体的工作流程: 一. 意图识别 1. 获取用户输入内容,进行必要的意图识别和关键词提取,比如用户输入的是“想去日本旅游,需要一个旅行计划”,拆解之后得到的关键词是: japan-trip,任务类型为:travel 2. 如果用户输入的需求比较简单,不能识别用户的意图,此步骤可以引导用户继续对话,补充更多的信息,或者上传文档 / 图片等资料 二. 任务初始化 1. 用识别出来的任务关键词创建任务文件夹,启动 docker 容器,为后续的任务执行做环境隔离 2. 任务执行过程中的内容产物,写入到任务文件夹,任务结束之后清理 docker 容器 三. 步骤规划 1. 使用意图识别的结果 + 补充背景信息,请求一个推理模型,对任务进行步骤拆分 2. 将任务拆分的步骤信息,写入到任务文件夹的 todo.md 四. 任务执行 1. 遍历任务文件夹中的 todo.md,[ ] 表示待执行的任务,[x] 表示已执行的任务 2. 取出待执行的任务,带上任务上下文信息,做一次 function call,这里带上的 function tools 是系统内置的可以执行不同任务的 agent,比如 search agent / code agent / data-analysis agent 3. 根据 function call 的结果,调度指定的 agent 执行任务,把执行过程中产生的内容,写入到容器中的任务文件夹 4. 任务执行完,由主线程,更新 todo.md,继续下一个任务 五. 归纳整理 1. todo.md 里面的任务全部执行完之后,主线程针对用户的初始需求,做一次整理输出 2. 把任务的内容产物,给到用户浏览或下载(文档 / 代码 / 图片 / 链接等) 3. 收集用户对任务的满意度 ---- 整个方案理下来,核心在于执行任务的 agent 设计,以及主线程的调度流程,以 search agent 为例,在处理“日本旅行计划”这个任务中,主要的执行步骤: 1. 拿到 japan-trip 等关键词信息,调用谷歌第三方 API,获取 10-20 条搜索结果 2. 模拟浏览器点开第一个网页,浏览网页内容,获取网页文本内容 + 浏览器截图拿到网页视觉信息 3. 调用支持多模态输入的模型,输入当前任务要求,从当前浏览的网页中提取有效信息(是否有符合要求的结果,如果不满足要求,返回下一个该点击的 button 元素) 4. 模拟浏览器点击 + 网页滚动行为,拿到更多的网页内容 + 视觉信息,重复几次,直到收集到的内容满足任务要求为止 5. 把收集到的内容保存到任务文件夹 这个 search agent 的核心在于模拟用户浏览网页行为,需要用到无头浏览器和多模态模型。 code agent 和 data-analysis agent 相对而言比较简单: 1. 根据任务需求,创建本地文件,写入代码(python 代码做数据分析,html 代码做视觉呈现) 2. 通过系统调用执行代码,把执行结果保存到任务文件夹 3. 通过 code-preview 服务,预览 html 文件的内容 --- 此类 multi-agent 产品,还有一些改进的空间: 1. todo.md 的多个任务,是线性依赖关系,可以使用 DAG(有向无环图)实现更加复杂的任务依赖 2. 需要引入自动化测试 agent,对任务结果进行判断和矫正,如果对某个步骤评分过低,需要回溯到之前的某个任务节点重新执行 3. 允许全自动 + 用户介入的混合模式,在某个步骤执行完,先寻求用户反馈,如果几秒内没收到反馈,则自动继续运行 --- 整体评价:manus 在工程层面做了很多工作,整体交互比其他产品好很多。技术层面,依然是没什么壁垒,对模型有比较深的依赖: 1. 也许有个小模型,做任务执行前的意图识别 2. 任务规划和推理,用 deepseek-r1 3. 图片识别 + 代码生成,用 claude-3.7-sonnet token 消耗会很高,能不能广泛用起来,取决于谁来负担这个成本。 最终的任务准确性和用户满意度,还需要更多的案例来说明。

00
无量空处_
1月前
Agent当前的最大限制可能已经不是planning和执行的能力了,而是受限于可以调用的api/工具,而这些是依赖于团队所在的生态。

Manus这一波会不会又是产品上做出了一个类似ds的good case,然后大厂结合自己的生态,快速跟进最后摘走果子?

无量空处_: 逐帧拆解了一下Manus的demo视频:【初识 Manus AI-哔哩哔哩】 https://b23.tv/iCHoftl 任务一:简历分析 较标准化的分析任务,模型的内置知识可以独立完成,但展现了产品设计上的用心 1.完全异步:在云端执行,用户可以离开屏幕 2.随时打断:用户在Manus执行过程中可以提出新要求,比如再丢5个新简历 3. Manus computer:展现agent执行过程的中间结果,写了什么笔记,写了什么代码,用了什么工具 4. 反思优化:应该有内置反思agent/模块,会review与用户交互的过程,自动对齐用户的偏好和思考过程 任务二:在纽约根据用户的需求选房产 复杂的通用任务,展示了模型强大的综合能力 1.任务规划:Manus会先写自己的Todo,进行任务拆解 2.查询外部信息:使用浏览器查资料,会操作网页上的交互按钮 3.使用工具:代码只是Manus的工具之一,如果某个任务需要,比如计算房价是否满足用户预算,Manus会自己写代码去算 任务三:股票相关性分析 垂直的专业问题 1.能查询专业数据的API 2.能做数据可视化 3.可以直接做出可视化网站并部署

00
无量空处_
1月前
逐帧拆解了一下Manus的demo视频:【初识 Manus AI-哔哩哔哩】 b23.tv

任务一:简历分析
较标准化的分析任务,模型的内置知识可以独立完成,但展现了产品设计上的用心
1.完全异步:在云端执行,用户可以离开屏幕
2.随时打断:用户在Manus执行过程中可以提出新要求,比如再丢5个新简历
3. Manus computer:展现agent执行过程的中间结果,写了什么笔记,写了什么代码,用了什么工具
4. 反思优化:应该有内置反思agent/模块,会review与用户交互的过程,自动对齐用户的偏好和思考过程

任务二:在纽约根据用户的需求选房产
复杂的通用任务,展示了模型强大的综合能力
1.任务规划:Manus会先写自己的Todo,进行任务拆解
2.查询外部信息:使用浏览器查资料,会操作网页上的交互按钮
3.使用工具:代码只是Manus的工具之一,如果某个任务需要,比如计算房价是否满足用户预算,Manus会自己写代码去算

任务三:股票相关性分析
垂直的专业问题
1.能查询专业数据的API
2.能做数据可视化
3.可以直接做出可视化网站并部署
12
无量空处_
2月前
这一波拉到同一起跑线后,第一个跑的最快的是之前跑得最慢的腾讯

yusen: 2025年会很精彩,大厂和创业公司都需要开始奔跑。

00