无量空处_的个人主页

即刻App年轻人的同好社区

下载

App内打开

无量空处_

115关注77被关注0夸夸

🐧产品经理
做过推荐策略，内容社区
现在研究AI

无量空处_

7天前

即梦3也还是有差距

歸藏: 在餐具里做微缩景观也是4o一个很好玩的玩法发散了一下：茶碗里面是一个中式的园林、咖啡杯里是一个咖啡馆提示词1：一个逼真且充满趣味的微型现代咖啡馆，热闹地呈现在一个盛满咖啡的马克杯里。这微缩咖啡馆包含一个迷你吧台，上面可能有微小的咖啡机和磨豆机，几张小桌子旁坐着微缩的顾客人偶，墙上（马克杯内壁）或许有迷你的菜单板或装饰画。真实的咖啡液面构成了咖啡馆的“地板”，上面可能还漂浮着微小的“拉花”图案。马克杯放在一张咖啡桌或吧台上，旁边可能是一个真实的羊角面包、笔记本电脑或糖罐，形成了微缩商业空间与日常饮品间的超现实对比。超写实风格、微距摄影、浅景深（焦点集中在咖啡馆内生动的场景和人物上）、明亮而柔和的、模拟咖啡馆的自然采光或室内灯光、高细节（体现在微缩设备的金属质感、人物的姿态和咖啡馆的装饰细节上）。提示词2：一个逼真的微型古代园林景致，巧妙地呈现在一个古朴的陶瓷茶碗之中。这微缩景观包含精心布置的假山、微小的亭台楼阁、蜿蜒的石径和象征性的水面（或极浅的真实水面）。几株形态优雅的微型松树或竹子点缀其间，或许还有细小的苔藓覆盖着“山石”。茶碗被放置在一个典雅的木质茶盘上，旁边可能放着一个紫砂壶或几块中式茶点，形成了古雅与微观世界间的超现实对比。超写实风格、微距摄影、浅景深（焦点集中在园林细节上）、柔和的、略带暖意的自然光、高细节（体现在微缩建筑的雕刻、植物形态和山石纹理上）

0 00

无量空处_

16天前

感觉这个时代的创业公司的战略不能建立在“希望通过技术来建立竞争壁垒上了”，巨头拥有更优质的人才和资源投入，小公司短时间的所谓技术优势很难持续。

小公司还是要从应用场景和商业模式上去构建壁垒，或者早点商业化，在大厂做出动作的窗口期内赚一波钱。

想到了Monica的战略，套壳等模型进步，然后从第一天就开始商业化，很正确呀

杨远骋Koji: 昨天这张 twitter 的截图引发了大量的共鸣，全网四处都在传播，今天看到 @Diiiii 的分享： 1）对大多数人来说，与其在供给端追求“最前沿”、“最先进”，不如踏踏实实专注需求端，专注那些“不变的东西”。 2）将 AI 作为改造世界、造福人类、更好满足需求的工具，这样活起来安全感更强一点，幸福感更高一些。 3）与其整天琢磨各种提示词的技巧，不如琢磨一下自己有哪些还没有得到满意答案的问题。 4）对我来说，一个比较有用的练习，是每天想一个“值得用 ChatGPT Pro/O3 来解决” 的问题 - 其实这并不容易。可能未来的挑战很快就会变成，模型不断精进的能力与人类贫乏的想象力之间的矛盾。 5）能否问出“配得上模型能力”的问题？能否对模型的边界提出更大的挑战？这可能是未来对“创新”的真正定义所在。

0 00

无量空处_

16天前

你说的对，我想表达的是在用户需求的视角来看，AI搜索，chatbot，还有Agent以后的心智是差不多的，都是“我有个问题让AI帮我回答/解决了”，以后三者的产品形态会逐渐趋同，各家都会朝着智能助手这个形态演化 //@麦门忠实信徒: 最近也在思考这个问题：长远来看，AI搜索和Agent有没有区别。

我的理解是有很大区别，Agent能干AI搜索的活，反过来就不行

从二者的侧重点：
AI搜索：更侧重信息的处理，本质是对已有信源的已有信息，做筛选、辨别、提炼，最后总结一个结论输出。
Agent：更侧重行动，行动的决策点不一定来自于已有信源，可能是模型在历史任务中的“经验”

从应用侧落地：
做AI搜索的企业/应用，从ROI的角度，大概率只让AI搜索解决“信息处理”的问题，因为大部分人用搜索，是为了快速获取答案
做Agent的企业/应用，重点是需要解决，Agent的规划能力、问题拆解能力、工具调用能力，这个时候AI搜索变成了其中的一种工具

刘飞Lufy: AI agent 相较于 AI 搜索，可以解决的一大痛点就是，能设法打破如今互联网割据的内容孤岛，尽可能找到优质的信息。像今天用 DeepSeek 搜出的答案错得离谱，看了下原始网页，整个就是牛皮癣广告。显然会严重污染 AI 的数据来源。

0 00

无量空处_

28天前

感觉AI搜索把信息源整合做好，或者引入类似deep research那样的多次检索+反思的模式也可以解决你说的这个问题

往长远来说，AI搜索可能以后都是Agent，两者没有明显边界了

刘飞Lufy: AI agent 相较于 AI 搜索，可以解决的一大痛点就是，能设法打破如今互联网割据的内容孤岛，尽可能找到优质的信息。像今天用 DeepSeek 搜出的答案错得离谱，看了下原始网页，整个就是牛皮癣广告。显然会严重污染 AI 的数据来源。

0 00

无量空处_

28天前

其实现在做搜索的都必然会升级自己为“AI搜索”，搜索和chatbot的竞争边界也越来越模糊，因为除了传统的寻址需求以外，用户用两种产品的需求是高度重合的，以后搜索引擎和chatbot都是往智能助理的方向去演化。

Agent的话个人觉得以后是通用逐渐吞噬掉垂类，就像之前的垂类Agent很多，但Manus验证了通用agent是更符合用户直觉的，因为普通用户很少能记住某个场景要去用某个垂直Agent这种高门槛的事情，以及很多低频的中长尾的碎片化需求在出现时，用户很难当下想到要用哪个垂直Agent去解决，而是会去寻找一个通用Agent来试一试，可能通用Agent底层是意图识别后，往各个垂类Agent去做分发需求

托马斯骆: 最近经常跟别人讨论两件事： 1. AI 搜索是不是一个伪存在？（Prompt 即需求，现在输入。prompt就相当于过去“搜索”的动作；而模型生成结果的过程内化了搜索这个步骤，以推理的方式呈现出结果。因此，大语言模型与搜索引擎基于人类同一类诉求，前者明显智能于后者，因此 AI 搜索不存在）。 2. 通用Agent存在不存在？（Agent 就是AI应用的一个典型形态甚至是标准形态，the automation of task execution，那你见过一个能解决所有需求的应用么？所以Agent是依托产业场景私有数据的，那就不存在通用Agent）。看了夸克的最新动作，我的看法有一些新的更新： 1. AI搜索确实是一个伪存在。不能因为模型有了搜索能力就说它是搜索。当人们看到一个框，就会觉得它是搜索用的，但AI成为一种工具之后，框是一个计算生成结果的需求处理窗口，它的功能不局限于搜索。夸克这次是明确地表示它的框不是一个搜索引擎窗口，而是一个复杂的AI需求入口，甚至是AI超级应用入口。 2. 通用Agent是不是成立，取决于对通用的定义，通用如果不被理解为千行百业，而被理解为人们普遍存在的，不依托于专业知识和职业技能的，超越聊天和对话功能的操作性AI需求，那通用就是在某种意义上成立的。人们就需要一个模型层之上的有通用和泛化能力的工具层，这个工具层是一个multi agents组合，与模型层有着很好的基于理解的交互和操作。更多的人是希望尽可能通过一个窗口去解决这个问题的。这可能就是夸克说的AI超级框，let's see what will happen.

0 00

无量空处_

1月前

OpenAI 昨天发布了Agents SDK，核心功能包括

一、多Agent协作编排
通过声明式API简化多智能体流程设计（如审批链、数据接力），相比传统Swarm架构减少70%的代码量
内置响应式路由机制，能根据上下文动态选择调用本地工具、第三方API或人类审核节点

二、标准化Agent模板
提供预配置的Agent类型（如客服机器人、数据分析助手），支持自定义指令集与工具访问权限
典型用例：企业内网知识库调用+实时网页搜索+代码执行沙箱的三层校验架构

三、安全与可观测性
Responses API内置网页搜索/代码执行工具，避免开发者重复造轮子的同时，通过沙箱隔离降低安全风险

openai.com

0 00

无量空处_

1月前

Manus可以在任务完成后，提炼出用户的一些个性化偏好并在下次执行时对齐（比如demo视频里那个简历筛选后存到excel的案例），想问一下这个是怎么实现的？会有一个类似于反思的agent，去review Manus和用户交互过程中的用户偏好吗？

艾逗笔: 以 manus 为例，拆解以 multi-agent 为基础的通用任务智能体的工作流程：一. 意图识别 1. 获取用户输入内容，进行必要的意图识别和关键词提取，比如用户输入的是“想去日本旅游，需要一个旅行计划”，拆解之后得到的关键词是： japan-trip，任务类型为：travel 2. 如果用户输入的需求比较简单，不能识别用户的意图，此步骤可以引导用户继续对话，补充更多的信息，或者上传文档 / 图片等资料二. 任务初始化 1. 用识别出来的任务关键词创建任务文件夹，启动 docker 容器，为后续的任务执行做环境隔离 2. 任务执行过程中的内容产物，写入到任务文件夹，任务结束之后清理 docker 容器三. 步骤规划 1. 使用意图识别的结果 + 补充背景信息，请求一个推理模型，对任务进行步骤拆分 2. 将任务拆分的步骤信息，写入到任务文件夹的 todo.md 四. 任务执行 1. 遍历任务文件夹中的 todo.md，[ ] 表示待执行的任务，[x] 表示已执行的任务 2. 取出待执行的任务，带上任务上下文信息，做一次 function call，这里带上的 function tools 是系统内置的可以执行不同任务的 agent，比如 search agent / code agent / data-analysis agent 3. 根据 function call 的结果，调度指定的 agent 执行任务，把执行过程中产生的内容，写入到容器中的任务文件夹 4. 任务执行完，由主线程，更新 todo.md，继续下一个任务五. 归纳整理 1. todo.md 里面的任务全部执行完之后，主线程针对用户的初始需求，做一次整理输出 2. 把任务的内容产物，给到用户浏览或下载（文档 / 代码 / 图片 / 链接等） 3. 收集用户对任务的满意度 ---- 整个方案理下来，核心在于执行任务的 agent 设计，以及主线程的调度流程，以 search agent 为例，在处理“日本旅行计划”这个任务中，主要的执行步骤： 1. 拿到 japan-trip 等关键词信息，调用谷歌第三方 API，获取 10-20 条搜索结果 2. 模拟浏览器点开第一个网页，浏览网页内容，获取网页文本内容 + 浏览器截图拿到网页视觉信息 3. 调用支持多模态输入的模型，输入当前任务要求，从当前浏览的网页中提取有效信息（是否有符合要求的结果，如果不满足要求，返回下一个该点击的 button 元素） 4. 模拟浏览器点击 + 网页滚动行为，拿到更多的网页内容 + 视觉信息，重复几次，直到收集到的内容满足任务要求为止 5. 把收集到的内容保存到任务文件夹这个 search agent 的核心在于模拟用户浏览网页行为，需要用到无头浏览器和多模态模型。 code agent 和 data-analysis agent 相对而言比较简单： 1. 根据任务需求，创建本地文件，写入代码（python 代码做数据分析，html 代码做视觉呈现） 2. 通过系统调用执行代码，把执行结果保存到任务文件夹 3. 通过 code-preview 服务，预览 html 文件的内容 --- 此类 multi-agent 产品，还有一些改进的空间： 1. todo.md 的多个任务，是线性依赖关系，可以使用 DAG（有向无环图）实现更加复杂的任务依赖 2. 需要引入自动化测试 agent，对任务结果进行判断和矫正，如果对某个步骤评分过低，需要回溯到之前的某个任务节点重新执行 3. 允许全自动 + 用户介入的混合模式，在某个步骤执行完，先寻求用户反馈，如果几秒内没收到反馈，则自动继续运行 --- 整体评价：manus 在工程层面做了很多工作，整体交互比其他产品好很多。技术层面，依然是没什么壁垒，对模型有比较深的依赖： 1. 也许有个小模型，做任务执行前的意图识别 2. 任务规划和推理，用 deepseek-r1 3. 图片识别 + 代码生成，用 claude-3.7-sonnet token 消耗会很高，能不能广泛用起来，取决于谁来负担这个成本。最终的任务准确性和用户满意度，还需要更多的案例来说明。

0 00

无量空处_

1月前

Agent当前的最大限制可能已经不是planning和执行的能力了，而是受限于可以调用的api/工具，而这些是依赖于团队所在的生态。

Manus这一波会不会又是产品上做出了一个类似ds的good case，然后大厂结合自己的生态，快速跟进最后摘走果子？

无量空处_: 逐帧拆解了一下Manus的demo视频：【初识 Manus AI-哔哩哔哩】 https://b23.tv/iCHoftl 任务一：简历分析较标准化的分析任务，模型的内置知识可以独立完成，但展现了产品设计上的用心 1.完全异步：在云端执行，用户可以离开屏幕 2.随时打断：用户在Manus执行过程中可以提出新要求，比如再丢5个新简历 3. Manus computer：展现agent执行过程的中间结果，写了什么笔记，写了什么代码，用了什么工具 4. 反思优化：应该有内置反思agent/模块，会review与用户交互的过程，自动对齐用户的偏好和思考过程任务二：在纽约根据用户的需求选房产复杂的通用任务，展示了模型强大的综合能力 1.任务规划：Manus会先写自己的Todo，进行任务拆解 2.查询外部信息：使用浏览器查资料，会操作网页上的交互按钮 3.使用工具：代码只是Manus的工具之一，如果某个任务需要，比如计算房价是否满足用户预算，Manus会自己写代码去算任务三：股票相关性分析垂直的专业问题 1.能查询专业数据的API 2.能做数据可视化 3.可以直接做出可视化网站并部署

0 00

无量空处_

1月前

逐帧拆解了一下Manus的demo视频：【初识 Manus AI-哔哩哔哩】 b23.tv

任务一：简历分析
较标准化的分析任务，模型的内置知识可以独立完成，但展现了产品设计上的用心
1.完全异步：在云端执行，用户可以离开屏幕
2.随时打断：用户在Manus执行过程中可以提出新要求，比如再丢5个新简历
3. Manus computer：展现agent执行过程的中间结果，写了什么笔记，写了什么代码，用了什么工具
4. 反思优化：应该有内置反思agent/模块，会review与用户交互的过程，自动对齐用户的偏好和思考过程

任务二：在纽约根据用户的需求选房产
复杂的通用任务，展示了模型强大的综合能力
1.任务规划：Manus会先写自己的Todo，进行任务拆解
2.查询外部信息：使用浏览器查资料，会操作网页上的交互按钮
3.使用工具：代码只是Manus的工具之一，如果某个任务需要，比如计算房价是否满足用户预算，Manus会自己写代码去算

任务三：股票相关性分析
垂直的专业问题
1.能查询专业数据的API
2.能做数据可视化
3.可以直接做出可视化网站并部署

0 12

无量空处_

2月前

这一波拉到同一起跑线后，第一个跑的最快的是之前跑得最慢的腾讯

yusen: 2025年会很精彩，大厂和创业公司都需要开始奔跑。

0 00