即刻App年轻人的同好社区
下载
App内打开
阿晓Ocean
935关注1k被关注3夸夸
对世界保持好奇
阿晓Ocean
14天前
听播客的个人感受:从美国学术界出来的创业者给人的感觉是intelligent,从中国大厂出来的创业者给人的感觉是smart
00
阿晓Ocean
21天前
神奇,前天刚思考过长期记忆与执行能力对于个人助手产品形态的影响,并且预测 GPTs 将迎来第二春,没想到今天就看到了 OpenAI 发布了 Workspace Agents 作为 GPTs的后继产品形态。openai.com/index/introducing-workspace-agents-in-chatgpt 之前思考记忆包含的隐私信息太多,难以公开,因而个性化助手分发平台的逻辑依然不成立。然后 OpenAI 的解法就是只做企业端共享的数字员工,暂时不做个人端助手的分发平台。

阿晓Ocean: 或许 AI助手的记忆,都应该是它自己的记忆,而不是对于用户的记忆。所有关于用户的记忆,都应该是它作为一个独立主体,与用户这个另一个独立主体交互后形成的他者印象。这样,如果一个用户拥有多个助手,他们可以有不同的记忆。 当年 GPTs 想通过系统提示词的区别来塑造不同的助手。但发现对于用户的帮助不大,绝大多数用户只是使用 ChatGPT 或者豆包这样一个系统默认的助手。需要加什么额外的限定,直接在用户的第一条消息说明即可。可以说 GPTs(以及当时国内跟风做的所谓的智能体) 是一个失败的产品功能。助手第一次尝试从统一走向个性化失败后,只能回到统一模式。这直到目前的 Claude Code、Claude Cowork、CodeX 以及 OpenClaw都是这样。 然而 OpenClaw 第一次引入了助手的日记作为记忆,使得助手第一次有了个人经历的积累与主体性。这为助手的个性化埋下了一颗种子。或许会让曾经失败的 GPTs 或者不同角色的智能体,在具备真正的自主性与行动力(是真 Agent 而非 Chatbot),并在引入长期记忆、个性化技能加载之后,迎来第二春。 但上述所说的依然是用户自己设定,自己使用。个性化助手的 UGC 与分发是否能成立,依然是个问号。如果个性化的关键在于记忆而非技能,而记忆包含的隐私信息又太多,难以公开。那么,想做“个性化助手分发平台”的逻辑就依然不成立。

00
阿晓Ocean
23天前
或许 AI助手的记忆,都应该是它自己的记忆,而不是对于用户的记忆。所有关于用户的记忆,都应该是它作为一个独立主体,与用户这个另一个独立主体交互后形成的他者印象。这样,如果一个用户拥有多个助手,他们可以有不同的记忆。

当年 GPTs 想通过系统提示词的区别来塑造不同的助手。但发现对于用户的帮助不大,绝大多数用户只是使用 ChatGPT 或者豆包这样一个系统默认的助手。需要加什么额外的限定,直接在用户的第一条消息说明即可。可以说 GPTs(以及当时国内跟风做的所谓的智能体) 是一个失败的产品功能。助手第一次尝试从统一走向个性化失败后,只能回到统一模式。这直到目前的 Claude Code、Claude Cowork、CodeX 以及 OpenClaw都是这样。

然而 OpenClaw 第一次引入了助手的日记作为记忆,使得助手第一次有了个人经历的积累与主体性。这为助手的个性化埋下了一颗种子。或许会让曾经失败的 GPTs 或者不同角色的智能体,在具备真正的自主性与行动力(是真 Agent 而非 Chatbot),并在引入长期记忆、个性化技能加载之后,迎来第二春。

但上述所说的依然是用户自己设定,自己使用。个性化助手的 UGC 与分发是否能成立,依然是个问号。如果个性化的关键在于记忆而非技能,而记忆包含的隐私信息又太多,难以公开。那么,想做“个性化助手分发平台”的逻辑就依然不成立。
21
阿晓Ocean
23天前
当考虑到弱耦合的使用场景,比如个人助手或数字员工,而非软件工程或其他独立的复杂项目时。多个 Agent 以及每个 Agent 的独立的长期记忆与专属技能变得必要起来。这时,多 Agent 的设计重点就可以关于角色,而非组织了。但这个时候,可能不应该将其称为 Multi-Agent 系统,更应该称为多个独立 Agent 系统,因为多个 Agent 之间的交互不再重要。

阿晓Ocean: 多智能体应该是关于组织的,而非关于角色的。

30
阿晓Ocean
1月前
所谓“道可道,非常道。名可名,非常名。”,意思是:可以用语言表达的道理,不是永恒不变的道理。可以被命名的概念,不是永恒的概念。

对应到今日 AI 领域:如果一个概念可以被 Token 化,那么它不是永恒的概念。如果一个道理可以用 Skill 文件来表达,那它也不是一个永恒不变的道理。

或者反过来理解,大多数经久不衰的道理与概念,都不能用有限的、简洁的文本来完全概括(数学与自然科学除外)。它依赖于人在实践(强化学习)中形成的不可言说的经验与直觉(或所谓“品味”?)。它依赖的是人脑中的神经网络。

这些都说明了是语言的局限、文本的局限,以及 Skill 文件的局限。

阿晓Ocean: 子曰:“君子不器。” 孔子说,君子无法被榨取成 skill。

10
阿晓Ocean
1月前
等到训练一个老专家垂域大模型,和像现在这样提取一个老专家的技能 skill 的成本一样低;且让通用大模型去调用垂域大模型的成本,和通用大模型调用 skill 的成本一样低的时候。

垂域大模型就成了。

为什么有了通用大模型和 Skill 文件,还需要垂类大模型?

第一,并非所有领域的数据都被训练到通用大模型里了。第二,并非所有的领域经验都能够被简化成 SOP 文本操作。

比如围棋,让通用大模型下围棋,或者给通用大模型一个 Skill 文件来下围棋,它都是不可能下过世界冠军的。

垂类模型有自己的不可替代之处。但其缺乏通用性的特点,让它看起来更像是一个工具。

只有被通用大模型调用,或以某种方式与通用大模型结合,才能够最大化地发挥自己的价值。
00
阿晓Ocean
1月前
子曰:“君子不器。”

孔子说,君子无法被榨取成 skill。
21
阿晓Ocean
1月前
GPT 模型的指令遵循特点非常奇怪。

对于一个长的流程性指令来说,它通常都很难严格按照规定的流程精密操作。相对来说,Claude 就会轻松很多。因而GPT适合单一目标、目标导向的任务,而非适合过程导向的任务。

另一方面,如果任务目标相对单一,但是达成目标的标准和要求相当多的话,它在满足各方面要求的角度上,是较为严格的。有时甚至可以说是教条的。这种场景下,Claude 与之相比会更加灵活。但并不是说这种场景下 Claude 就一定比 GPT 更好,这取决于任务的交付标准和我们描述的精确性。如果我们确实对于任务要求相当严格,且我们的描述是精确的。则Claude 的灵活就意味着不够严格和精确,这时GPT 模型更适合我们。但如果我们对于任务要求并不严格,我们的描述也相当随意,在Claude 能够满足我们的严格程度时,GPT 的严格就变成了负面的教条。

阿晓Ocean: GPT-5.4 虽然在很多复杂的场景下,真的具有逻辑思维和业务理解能力,但同时却在另一些需要常识的任务中翻车。 如果任务指令不够明确,而是暗含了一些常识性原则,它只会按照指令字面的意思去执行,却不会同时考虑到一些未指明的常识,从而得到本本主义的结果。 在这一点上,Opus 4.6 比 GPT 5.4 要好不少。 但另一方面,Opus 4.6 的执行太多是基于常识与预训练的语料,基于这个世界已有的行为模式,而并不理解一个真正创新、独特场景下的一个新的模式。 它很难得到严密逻辑推理下的结果,在 debug 方面也会出现诸多的幻觉与漏洞。 简而言之: GPT 5.4 有逻辑、没常识; 而 Opus 4.6 有常识、没逻辑。 做日常、文科、或商业类非严密逻辑推理的任务时,用 Opus 4.6 更加轻松。而在处理理工科、编程等需要严密逻辑推理的任务时,用 GPT-5.4 更准确。

00
阿晓Ocean
2月前
Harness Engineering:套束工程。
Agent Harness:Agent 套束。

“驾驭工程”给人的感觉是需要实时操控,这更像是 Copilot 时期的用户用法。

但是 Harness Engineering 更倾向于是给定一套约束,则 Agent 可以按照这套约束自行长期执行,因而“驾驭”这个词并不准确。

用“套束工程”这个词,一方面表达了这种只给定约束、不进行过多人工干预的思想;另一方面,也使得 Agent Harness 这个翻译能够用同样的中文翻译,且毫无违和感。

桑文锋SensorsData: Harness Engineering 中的Harness怎么翻译?是个有趣的问题。用马具听着不好听,用马鞍又不贴切,因为Harness其实是指控制系统的连接层,在驾驭马干活的场景里,它是指缰绳、颈套之类的。我也看有的文章里用线束这个词,原来在航空航天领域更早的复用了这个词,用来表示线路连接的设计,保证信号传递的稳定可靠。在Agent工程的场景,我看现在的用法里,既包含了连接层,又包含了执行层如工具等,现在还处于概念形成期。

21