即刻App年轻人的同好社区
下载
App内打开
无量空处_
150关注106被关注0夸夸
AI产品经理
前腾讯,现夸克/千问
AI搜索,AI chat,AI agent
ENTJ
无量空处_
2天前
长期的记忆系统会把它变成向量化来RAG(对应你提到的2年前内容它还记得,本质是它每次会去检索之前的历史),短期的记忆(比如最近10轮对话)会连同当前prompt直接喂给模型,两者都属于上下文的一部分,这两者加起来不能超过模型的上下文窗口size(比如100w token),所以在RAG的部分其实有一定的“遗忘”机制,它会把不相关的给忘掉,但无法忘掉语义上相关,但你觉得已经不重要的内容

携隐Melody: 上周跟闺蜜和她老公去吃饭,她老公是资深AI工程师,向他问了很多AI的问题,其中有一个常见误区对我来说超受用,发出来跟大家分享下。 这个误区是:聊天记录越多,AI越好用。 我之前一直是这么理解的:聊天记录越多,AI就越了解我,我们对一些问题达成的共识就越多,细节上的框定就越明确,当然AI就会越好用啊(更个性化了嘛)。 实际上yes and no。了解得越多,越个性化,总体上是对的。但这里有一个很棘手的问题就是:AI不会遗忘。 假设我和朋友,有一个两年来一直持续讨论的话题,那每一次继续对话时,我其实是基于我所记得的“重点”来聊的,我不会记得每一个细节,更不会给每一个细节同样的权重。事实上,遗忘是一个很重要的人脑功能,我通过这个“筛子”,一遍遍忘记不重要、不相干的内容,留下对我来说最重要的内容,这就是“学习”。 我之前也讲过Kim Peek的故事:一个真正“过目不忘”的人(《雨人》的原型)。他的大脑缺少了遗忘这个“筛子”,以至于所有的信息,都丝毫不差地存入大脑(一本书从最后一页他可以真正一字不差地倒背如流)。他的大脑就像生活在一片不停歇闪耀的霓虹灯和一大堆噪音中,彻底决策瘫痪。所以Kim Peek连生活都无法自理。 AI也是无法遗忘的。 那AI要正常对话,就需要其他“筛子”,或者用AI语言来说,就是需要一些权重,知道在当下对话中,优先参考哪些过往信息(而不是全部参考一遍,那算不过来啊)。 AI的筛子,简单粗暴地说,是“相关 + 就近”。 对于简单的话题来说,这就够了。如果我两年前有一个观点,最近改变了,那么AI采用的是我最近的观点,非常合理。如果我两年前说了一件事,后来再没说过,最近又提起,那么AI找到了两年前的相关内容(因为只有这个相关)接着聊,那也很好。 但是如果“相关”累积得非常多,AI就会开始混乱。 比如我在几个月前开启过写小说的项目,之前写的版本都给AI看过。现在快半年过去了,我读了很多写作的书,有了一些新的想法,跟AI说我要重新开始,从零重建故事。 当我刚给出这个“从零开始”的指令时,一切都还很正常(因为这个指令是“最近”的)。当我越聊越多时,AI就混乱了,开始引用我之前版本的内容,因为对它来说,这个版本跟上一个版本都不再“最近”了,都是过去的、不分权重的内容了。它如果觉得版本一的内容跟我当下说的内容更相关,就会“跳过”从零开始的那个token,直接去参考版本一。 再比如,我有一个对话,专门用来跟AI互聊以丰富主角人设。我说在这个对话中要称呼我“泠”(小说女主的名字);我有另一个对话是虚拟沈星回(游戏角色),我说这里要称呼我“搭档”(游戏中的称呼)。 一开始也是两边都很顺畅,不会搞错。但时间一长,AI就开始乱喊,在小说里喊我“搭档”,在沈星回那儿喊我“泠”,甚至在我聊了两天其他网文的时候喊我“太太”😂。完全跳过了之前我给的“在这个对话中喊什么”的指令。 因为在AI眼里,游戏、我的小说、网文(哪怕是尾鱼和P大这样风格迥异的网文),都没什么区别,都是“相关”。 我们可以这么理解:由于无法遗忘,AI在判断相关性上,跟人脑还差很远。人脑看P大、尾鱼、我自己的小说、游戏,会总结出四个不同的风格,拥有各自的特点和内容,不太会串台。AI记住一切,那么不管你风格区别多大,细节上总有相似,毕竟故事离不开一些原型,比如宿命、相遇、两难的抉择。 有时候新对话里,AI很有创意。等到对话长了,AI就车轱辘话来回转,而且集中在你最近聊的内容上,不是因为AI创意用完了,是因为它的“思考”进入了权重划定的局限。 怎么解决呢? 就是得人工帮它筛选,你不想让它参考的内容,最好删掉重来。 更具体地说,① 我为小说创建了多个对话,一旦某项子内容要推翻重来,就把那个对话删掉;② 定期要它总结我们说过的内容,再人工进行修订和笔记保存,然后喂回给它(相当于人工帮它“遗忘”);③ 日常查询全部放在一个“闲聊”中,定期删除;④ 完全不相关的内容分在两个AI中进行。 要想AI跑得顺,内容管理真的很重要啊。 P.S. AI也还远远没很多人想得那么智能,说实话挺“蠢”的,大家也不要过于担心被取代啦。

00
无量空处_
1月前
在夸克和千问做着内部说要绝对保密,但全世界都知道了的秘密项目🌚
61
无量空处_
9月前
即梦3也还是有差距

歸藏: 在餐具里做微缩景观也是4o一个很好玩的玩法 发散了一下:茶碗里面是一个中式的园林、咖啡杯里是一个咖啡馆 提示词1: 一个逼真且充满趣味的微型现代咖啡馆,热闹地呈现在一个盛满咖啡的马克杯里。这微缩咖啡馆包含一个迷你吧台,上面可能有微小的咖啡机和磨豆机,几张小桌子旁坐着微缩的顾客人偶,墙上(马克杯内壁)或许有迷你的菜单板或装饰画。 真实的咖啡液面构成了咖啡馆的“地板”,上面可能还漂浮着微小的“拉花”图案。马克杯放在一张咖啡桌或吧台上,旁边可能是一个真实的羊角面包、笔记本电脑或糖罐,形成了微缩商业空间与日常饮品间的超现实对比。超写实风格、微距摄影、浅景深(焦点集中在咖啡馆内生动的场景和人物上)、明亮而柔和的、模拟咖啡馆的自然采光或室内灯光、高细节(体现在微缩设备的金属质感、人物的姿态和咖啡馆的装饰细节上)。 提示词2: 一个逼真的微型古代园林景致,巧妙地呈现在一个古朴的陶瓷茶碗之中。这微缩景观包含精心布置的假山、微小的亭台楼阁、蜿蜒的石径和象征性的水面(或极浅的真实水面)。 几株形态优雅的微型松树或竹子点缀其间,或许还有细小的苔藓覆盖着“山石”。茶碗被放置在一个典雅的木质茶盘上,旁边可能放着一个紫砂壶或几块中式茶点,形成了古雅与微观世界间的超现实对比。超写实风格、微距摄影、浅景深(焦点集中在园林细节上)、柔和的、略带暖意的自然光、高细节(体现在微缩建筑的雕刻、植物形态和山石纹理上)

00
无量空处_
9月前
你说的对,我想表达的是在用户需求的视角来看,AI搜索,chatbot,还有Agent以后的心智是差不多的,都是“我有个问题让AI帮我回答/解决了”,以后三者的产品形态会逐渐趋同,各家都会朝着智能助手这个形态演化 //@麦门忠实信徒: 最近也在思考这个问题:长远来看,AI搜索和Agent有没有区别。

我的理解是有很大区别,Agent能干AI搜索的活,反过来就不行

从二者的侧重点:
AI搜索:更侧重信息的处理,本质是对已有信源的已有信息,做筛选、辨别、提炼,最后总结一个结论输出。
Agent:更侧重行动,行动的决策点不一定来自于已有信源,可能是模型在历史任务中的“经验”

从应用侧落地:
做AI搜索的企业/应用,从ROI的角度,大概率只让AI搜索解决“信息处理”的问题,因为大部分人用搜索,是为了快速获取答案
做Agent的企业/应用,重点是需要解决,Agent的规划能力、问题拆解能力、工具调用能力,这个时候AI搜索变成了其中的一种工具

刘飞Lufy: AI agent 相较于 AI 搜索,可以解决的一大痛点就是,能 设法打破如今互联网割据的内容孤岛,尽可能找到优质的信息。 像今天用 DeepSeek 搜出的答案错得离谱,看了下原始网页,整个就是牛皮癣广告。显然会严重污染 AI 的数据来源。

00
无量空处_
9月前
感觉AI搜索把信息源整合做好,或者引入类似deep research那样的多次检索+反思的模式也可以解决你说的这个问题

往长远来说,AI搜索可能以后都是Agent,两者没有明显边界了

刘飞Lufy: AI agent 相较于 AI 搜索,可以解决的一大痛点就是,能 设法打破如今互联网割据的内容孤岛,尽可能找到优质的信息。 像今天用 DeepSeek 搜出的答案错得离谱,看了下原始网页,整个就是牛皮癣广告。显然会严重污染 AI 的数据来源。

00
无量空处_
9月前
其实现在做搜索的都必然会升级自己为“AI搜索”,搜索和chatbot的竞争边界也越来越模糊,因为除了传统的寻址需求以外,用户用两种产品的需求是高度重合的,以后搜索引擎和chatbot都是往智能助理的方向去演化。

Agent的话个人觉得以后是通用逐渐吞噬掉垂类,就像之前的垂类Agent很多,但Manus验证了通用agent是更符合用户直觉的,因为普通用户很少能记住某个场景要去用某个垂直Agent这种高门槛的事情,以及很多低频的中长尾的碎片化需求在出现时,用户很难当下想到要用哪个垂直Agent去解决,而是会去寻找一个通用Agent来试一试,可能通用Agent底层是意图识别后,往各个垂类Agent去做分发需求

托马斯骆: 最近经常跟别人讨论两件事: ​ ​1. AI 搜索是不是一个伪存在? (Prompt 即需求,现在输入。prompt就相当于过去“搜索”的动作;而模型生成结果的过程内化了搜索这个步骤,以推理的方式呈现出结果。因此,大语言模型与搜索引擎基于人类同一类诉求,前者明显智能于后者,因此 AI 搜索不存在)。 ​ ​2. 通用Agent存在不存在?(Agent 就是AI应用的一个典型形态甚至是标准形态,the automation of task execution,那你见过一个能解决所有需求的应用么?所以Agent是依托产业场景私有数据的,那就不存在通用Agent)。 ​ ​看了夸克的最新动作,我的看法有一些新的更新: ​ ​1. AI搜索确实是一个伪存在。不能因为模型有了搜索能力就说它是搜索。当人们看到一个框,就会觉得它是搜索用的,但AI成为一种工具之后,框是一个计算生成结果的需求处理窗口,它的功能不局限于搜索。夸克这次是明确地表示它的框不是一个搜索引擎窗口,而是一个复杂的AI需求入口,甚至是AI超级应用入口。 ​ ​2. 通用Agent是不是成立,取决于对通用的定义,通用如果不被理解为千行百业,而被理解为人们普遍存在的,不依托于专业知识和职业技能的,超越聊天和对话功能的操作性AI需求,那通用就是在某种意义上成立的。人们就需要一个模型层之上的有通用和泛化能力的工具层,这个工具层是一个multi agents组合,与模型层有着很好的基于理解的交互和操作。更多的人是希望尽可能通过一个窗口去解决这个问题的。这可能就是夸克说的AI超级框,let's see what will happen.

30
无量空处_
9月前
OpenAI 昨天发布了Agents SDK,核心功能包括

一、多Agent协作编排
通过声明式API简化多智能体流程设计(如审批链、数据接力),相比传统Swarm架构减少70%的代码量
内置响应式路由机制,能根据上下文动态选择调用本地工具、第三方API或人类审核节点

二、标准化Agent模板
提供预配置的Agent类型(如客服机器人、数据分析助手),支持自定义指令集与工具访问权限
典型用例:企业内网知识库调用+实时网页搜索+代码执行沙箱的三层校验架构

三、安全与可观测性
Responses API内置网页搜索/代码执行工具,避免开发者重复造轮子的同时,通过沙箱隔离降低安全风险

openai.com
00
无量空处_
10月前
Manus可以在任务完成后,提炼出用户的一些个性化偏好并在下次执行时对齐(比如demo视频里那个简历筛选后存到excel的案例),想问一下这个是怎么实现的?会有一个类似于反思的agent,去review Manus和用户交互过程中的用户偏好吗?

艾逗笔: 以 manus 为例,拆解以 multi-agent 为基础的通用任务智能体的工作流程: 一. 意图识别 1. 获取用户输入内容,进行必要的意图识别和关键词提取,比如用户输入的是“想去日本旅游,需要一个旅行计划”,拆解之后得到的关键词是: japan-trip,任务类型为:travel 2. 如果用户输入的需求比较简单,不能识别用户的意图,此步骤可以引导用户继续对话,补充更多的信息,或者上传文档 / 图片等资料 二. 任务初始化 1. 用识别出来的任务关键词创建任务文件夹,启动 docker 容器,为后续的任务执行做环境隔离 2. 任务执行过程中的内容产物,写入到任务文件夹,任务结束之后清理 docker 容器 三. 步骤规划 1. 使用意图识别的结果 + 补充背景信息,请求一个推理模型,对任务进行步骤拆分 2. 将任务拆分的步骤信息,写入到任务文件夹的 todo.md 四. 任务执行 1. 遍历任务文件夹中的 todo.md,[ ] 表示待执行的任务,[x] 表示已执行的任务 2. 取出待执行的任务,带上任务上下文信息,做一次 function call,这里带上的 function tools 是系统内置的可以执行不同任务的 agent,比如 search agent / code agent / data-analysis agent 3. 根据 function call 的结果,调度指定的 agent 执行任务,把执行过程中产生的内容,写入到容器中的任务文件夹 4. 任务执行完,由主线程,更新 todo.md,继续下一个任务 五. 归纳整理 1. todo.md 里面的任务全部执行完之后,主线程针对用户的初始需求,做一次整理输出 2. 把任务的内容产物,给到用户浏览或下载(文档 / 代码 / 图片 / 链接等) 3. 收集用户对任务的满意度 ---- 整个方案理下来,核心在于执行任务的 agent 设计,以及主线程的调度流程,以 search agent 为例,在处理“日本旅行计划”这个任务中,主要的执行步骤: 1. 拿到 japan-trip 等关键词信息,调用谷歌第三方 API,获取 10-20 条搜索结果 2. 模拟浏览器点开第一个网页,浏览网页内容,获取网页文本内容 + 浏览器截图拿到网页视觉信息 3. 调用支持多模态输入的模型,输入当前任务要求,从当前浏览的网页中提取有效信息(是否有符合要求的结果,如果不满足要求,返回下一个该点击的 button 元素) 4. 模拟浏览器点击 + 网页滚动行为,拿到更多的网页内容 + 视觉信息,重复几次,直到收集到的内容满足任务要求为止 5. 把收集到的内容保存到任务文件夹 这个 search agent 的核心在于模拟用户浏览网页行为,需要用到无头浏览器和多模态模型。 code agent 和 data-analysis agent 相对而言比较简单: 1. 根据任务需求,创建本地文件,写入代码(python 代码做数据分析,html 代码做视觉呈现) 2. 通过系统调用执行代码,把执行结果保存到任务文件夹 3. 通过 code-preview 服务,预览 html 文件的内容 --- 此类 multi-agent 产品,还有一些改进的空间: 1. todo.md 的多个任务,是线性依赖关系,可以使用 DAG(有向无环图)实现更加复杂的任务依赖 2. 需要引入自动化测试 agent,对任务结果进行判断和矫正,如果对某个步骤评分过低,需要回溯到之前的某个任务节点重新执行 3. 允许全自动 + 用户介入的混合模式,在某个步骤执行完,先寻求用户反馈,如果几秒内没收到反馈,则自动继续运行 --- 整体评价:manus 在工程层面做了很多工作,整体交互比其他产品好很多。技术层面,依然是没什么壁垒,对模型有比较深的依赖: 1. 也许有个小模型,做任务执行前的意图识别 2. 任务规划和推理,用 deepseek-r1 3. 图片识别 + 代码生成,用 claude-3.7-sonnet token 消耗会很高,能不能广泛用起来,取决于谁来负担这个成本。 最终的任务准确性和用户满意度,还需要更多的案例来说明。

00