即刻App年轻人的同好社区
下载
App内打开
许涵之
76关注3k被关注5夸夸
AI PM,在做一款 AI 硬件
前字节 PM,腾讯产培
公众号、小红书同名
wx:xqys_wx
置顶
许涵之
2月前
加入了一家 AI 硬件初创公司。即刻上的朋友在看机会的,一定要来考虑考虑我们这儿啊(๑>ڡ<)✌️。

公司的介绍可以看这篇小红书的帖子,我就不再赘述了。三个关键词:Always On、AI Memory、Proactive Agent。当然,都是一些比较共识的词了,但我们也有一些自己独特的思考。无论是对这份工作感兴趣,还是单纯想聊聊的朋友,都可以来找我呀,我往返北京深圳,可面基可线上。

在这条帖子下评论、私信或者加我微信都可以的~

神仙AI公司招人了!社招非校招! - 小红书

169
许涵之
1天前
最近最大的娱乐就是跟 Claude 天南海北地聊。对于一个对任何事情都可能产生极大的、突然的好奇心的人来说,真是莫大的幸福,想起了小时候在百度上点击一个词条又一个词条深入地探索一个下午的那种快乐。
21
许涵之
6天前

liaohch3: 分享读了几篇 LLM 复盘报告的感受 最近 Anthropic、OpenAI、智谱都发布了一篇各自线上问题的复盘 blog,分别是: - Claude Code 近期质量下降的复盘 - GPT 模型莫名其妙输出“哥布林”的复盘 - 智谱 GLM-5 输出乱码、复读、生僻字的复盘 联想到去年 Anthropic 和 OpenAI 也有过类似用户侧体验降级的复盘,趁着假期,今天把几篇博客整体拿出来一起学习了一下,看看有没有共性,以及对 Agent 开发者有哪些启发。 异常的表现: 用户侧感受到的“模型表现下降”,其实不只有一种形式。 - 有些表现得像能力下降,比如 Claude Code 更容易遗忘上下文、推理接不上 - 有些是风格和人格的问题,比如 GPT-4o 某个版本变得过度谄媚,太容易顺着用户说 - 有些是表达习惯异常,比如 GPT 系列模型突然更容易输出“哥布林”这类很突兀的词 - 还有一些是更明显的输出异常,比如智谱 GLM-5 在复杂 Coding Agent 任务里出现乱码、复读、生僻字 这些问题不像传统软件 bug 那样明显,也不一定容易发现和复现;它们不一定会直接体现在 benchmark 榜单上,但真实用户在连续使用过程中会冷不丁感受到模型表现不如预期。 问题的原因: 不同于传统软件,大模型和 Agent 产品表现不如预期,可能是系统中任何一个环节出问题导致的。从下到上,可能是模型问题、推理引擎层问题,也可能是 Agent 产品 harness 问题。 - 模型问题:去年 GPT-4o 某个版本表现得过于谄媚、今年 GPT 模型输出“哥布林”概率升高,都属于模型层的问题。再往底层追溯,可以反映为训练数据质量问题,以及训练时的奖励信号问题。更谄媚的表现和“哥布林”输出,在训练过程中更容易被奖励模型判定为好的输出,最终结果就是训练出来的模型不符合预期。 - 推理引擎问题:去年 Claude 有一段时间降智明显,当时 Anthropic 官方多次表态不会因为成本或者负载因素主动降低服务质量,最终排查出来是推理链路中的底层问题。 智谱的博客里也提到了类似的问题:GLM-5 在标准推理环境下表现正常,但在高并发、长上下文的 Coding Agent 场景下,会偶发乱码、复读、生僻字。最后定位到的不是模型本身,而是大规模推理系统里的状态管理和缓存一致性问题。 - Agent 产品 harness 问题:Claude Code 在某个版本降低默认的思考等级,本意是希望平衡智能水平和响应延迟,最终导致输出质量降低;某些 bug 导致推理历史被错误清理,后续轮次接不上前面的思考,表现出来就是用户感觉 Claude Code 更容易遗忘;还有一段为了防止模型输出太冗长的系统提示词,也导致了编码质量下降。 漏放的原因: 还有一个比较深的感受就是,即使 LLM 公司内部已经有不少发布前准出机制,仍然会有一些导致用户负反馈的 bug 或变更漏到线上。一些谄媚的表达无法通过量化指标来识别、大规模推理时才会概率性出现的 bug 无法简单在内部环境下复现。 这说明模型的评测和准出机制仍然有覆盖不到的方面。包括后置的用户反馈通道,以及用户反馈的复现、定位和修复工具链,也需要更多提升。 对 Agent 产品开发者的启示: - Agent 产品交付的是端到端体验。 模型本身的能力和品性很重要,但 Agent harness 如何让模型在具体产品场景里稳定发挥,同样重要。开发者首先要定义清楚自己希望产品表现出什么能力、边界和风格,再结合对模型的手感,通过评测、消融实验、上下文组织、工具设计和默认配置,调配出一个合适的 Agent 环境。这个过程本身就是 Agent 开发者的差异化价值。 - 用户反馈和内部指标都重要,互相校准。 用户反馈更贴近真实体验,很多“模型变差了”“有点怪”“不如以前好用”的问题,往往是用户先感知到;但用户反馈也会比较稀疏、有噪音,并且样本有偏。内部指标更稳定、覆盖面更广,也更适合做版本对比和持续监控,但它不一定能完整代表真实用户体验。所以更好的方式不是二选一,而是把用户反馈当成问题发现信号,再把高质量反馈沉淀成内部评测、回归用例和上线准出标准。 - 建立更短的用户反馈到问题修复闭环。 用户说“产品变笨了”通常是一个模糊症状,不能直接复现。在保证用户隐私的前提下,Agent 产品尽可能保留必要的调试信息,结合用户反馈形成可分析的 bad case,引入 Coding Agent 直接进行问题复现、原因分析、代码修复、评测准出流程,让整个过程的链路更短,更少人工介入。 相关链接: - Anthropic:An update on recent Claude Code quality reports, https://anthropic.com/engineering/april-23-postmortem - OpenAI:Where the goblins came from, https://openai.com/index/where-the-goblins-came-from/ - 智谱:Scaling Pain:超大规模 Coding Agent 推理实践, https://zhipuai.cn/zh/research/159 - Anthropic:A postmortem of three recent issues, https://anthropic.com/engineering/a-postmortem-of-three-recent-issues - OpenAI:Sycophancy in GPT-4o, https://openai.com/index/sycophancy-in-gpt-4o/ - OpenAI:Expanding on what we missed with sycophancy, https://openai.com/index/expanding-on-sycophancy/

00
许涵之
16天前
使用 AI 产品的一个小技巧是,如果 AI 在多轮对话中犯了错误,可以回到它犯错之前的那轮问题开一个新的分支(如果这个产品支持这个能力的话),并在其中补充信息,让它不要再走那条路,这是一种控制上下文的手段。

所以我突然在想,这个工具是不是也可以给 AI 自己来用呢?

如果给 AI 提供一个工具,当它发现自己探索的一段路程错误时,可以调用这个工具,让自己回到这次探索之前的那轮工具调用之前。同时,它可以写一段 hint,补充在这次工具调用之后,提醒自己不要再走那条老路。

这等于给了 AI 无限次“时光倒流”的机会,会失忆,但可以给过去的自己传个小纸条,让它能以尽量少的存档路径,探索出最好的结果,并控制上下文的长度。

好像没听说有哪个 Agent 产品实现了这个功能,是我孤陋寡闻吗?还是说这样实现存在什么我没想到的问题?
23
许涵之
16天前
按这个思路跟 ClaudeCode 沟通了十几轮,总算弄完了。

把所有的记忆(Claude Code+Cowork+Codex+Openclaw)都整合到了一个总的 claude.md 文件和一堆 Skills 中,除了一些开发用的留在了之前的 Project。

另外还做了自动同步:
1. 一个是从Auto Memory 里面抽取到 claude.md 和 Skills
2. 另一个是自动从 ClaudeCode 同步到 Codex

我把经验教训都封装到了这个 Skill中,需要的同学可以自取。
github.com

许涵之: Claude Code 的记忆系统现在也挺复杂的了,请教下大家是怎么管理的呀?

00
许涵之
19天前
这个思路还挺新颖的。

因为现在很多大模型的最佳基础设施,其实是过去的互联网基础设施的复兴。CLI 是这样,文件系统也是这样。因为大模型熟悉,不用教。

AI AI 之间通信,我确实看到挺多人在尝试实现了,但 Email 不就是又一个古老且完备的基础设施吗?做新轮子不如复用好的旧轮子。
20
许涵之
20天前
Claude Code 的记忆系统现在也挺复杂的了,请教下大家是怎么管理的呀?
61
许涵之
1月前
最近体验下来,觉得飞书录音豆还是挺不错的。

因为已经在用飞书了,所以 App 的使用几乎没有任何多余的负担,对于飞书的妙记、文档等功能的使用也都很习惯,AI 的效果也有基本的保障。

录音豆比较小巧,拿在手里随时可以开关,能捕捉很多线下的沟通场景,无论是工作还是生活都很方便。

我最看重的几点优势包括:
1. 逐字稿的后续利用
逐字稿可以进一步导出,再被 AI 利用。其他的一些录音产品,比如 Granola逐字稿效果不好,ChatGPT 拿不到逐字稿,或者像 Plaud 没有 API。目前只有录音豆能很好地满足我这个需求。

2. 实时共享与回溯功能
我特别喜欢它的实时共享功能,可以实时看到聊天的原文和总结框架。线下多人聊天开一下,中间可能做了什么事情,没注意刚才说了什么了,随时看一眼就能回忆起来。

3. 多维度的信息接收
甚至在一些线上非飞书会议场景,即便不走神,我只靠听别人说话也会觉得接收的信息量比较小。我习惯看字幕了,就像看电视剧一样。所以只要是多人的场景,我很喜欢在开启录音豆的同时,在手机上打开飞书看字幕。这能让我从两个维度接收信息,更加聚精会神,感受到自己处于当下聊天的情境中。

4. 强大的翻译功能
它的翻译功能也很好。像我女朋友跟她家人用粤语聊天,我之前完全插不上话,现在通过翻译就可以了。

当然,飞书录音豆也有一些缺点,就是东西太小了,太容易丢。我不太喜欢挂在脖子上,放兜里也容易丢。最终我找到了一个最好的解决办法,就是把它套在我的手环上。

以及这个录音豆不能在手机上结束录音,这我有时候挺麻烦的。

还有它的开启和关闭时的震动反馈隔了几秒才有,我每次都要等一下,我觉得很烦。我希望它能快速反馈已经开始或关闭录音了。

这些都是小缺点,我觉得还是值得购入的。
62
许涵之
1月前
我觉得 CC 这个主动助手 KAIROS 特别值得关注。我没想到 Claude Code 竟然也已经在规划这个功能了,代码都有了;如果 Claude Code 真的上线了这个功能,可能全世界 90% Proactive Agent 产品都要直接宣布死亡了。

我最近读到两篇论文,都说对于这种主动式工作助手,最大的难题不是不知道主动做什么,而是过于主动、过分推断,不知道 Claude Code 准备怎么解决这个问题。

Claude Code 这样一个形态,以及在此之上构建的生态,通过这些上下文来支持一个主动工作的机制,确实很搭配。

想象一下,一个既用 Claude Code 又用 Granola 的用户。Kairos 每天通过 CC 主动去查 Granola,主动去看用户开了什么会、会中有哪些信息、细节,然后帮他去做调研,去连接 Claude 的其他连接器和插件帮用户做事情,太自然了。
02
许涵之
2月前
AI 产品的效果取决于模型的智能,模型的智能取决于数据的质量。而 Agent 产品和 Chatbot 类产品的区别之一,就是用户使用数据对模型的智能提升不再没有作用了。

在 Chatbot 时代,用户数据可能确实作用有限。2025 年初的时候,MiniMax 的闫俊杰还说:「更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型,大部分用户的query其实没有模型自己模拟得好」。这可能是因为这类产品背后模型的智能提升,主要依赖于互联网存量数据的预训练。Chatbot的交互产生的多为同质化的闲聊、浅层问答或已经被互联网语料充分覆盖的知识检索,这些数据缺乏增量的信息熵。

但 Agent 时代的不同点在于,Agent 与人、与世界的交互所依赖的数据,是过去人类互联网世界从未有过的。

与Chatbot不同,Agent时能够进行复杂的因果推理、任务拆解、规划、调用外部工具(API)并在真实或模拟环境中执行多步任务。这种智能体与世界交互产生的数据被称为“轨迹数据”,它不仅包含了最终的结果,更记录了智能体在每一步的观察、内部推理(思考过程)、工具调用逻辑以及对环境反馈的自我纠错,而这样的数据对现在模型智能的提升至关重要,二者是相辅相成的关系。

举个例子:在过去的互联网世界,没有多少人用 HTML 做 PPT。所以,裸模型用 HTML 画 PPT 的效果就是会很差,但它在逐渐变好。这是为什么?

1. 因为有这类产品出现,有用户在实际使用,专业职场人士每年因排版PPT耗费数以亿计的小时,这一痛点催生了大量的早期采用者。

2. 有人在调教,有反馈循环:从用户反馈到应用厂商,再反馈到模型厂商,最终内化到一代又一代的模型里。

3. 这种“左脚踩右脚”的螺旋上升,使得用 HTML 画 PPT 的效果越来越好。

再比如,OpenClaw 的记忆系统其实饱受诟病,用一堆 MD 文档来承载,看起来好像没那么高级,也许我们可以用另外的方式优化它的记忆系统?

但不好意思,用 MD 文档来承载的这种方式,可能已经是未来了。因为从 Claude Code 开始,用 MD 文档来承载记忆就在不断地被模型使用、被训进模型,它只会越来越好,形成对其他方式的马太效应。

如果从头再来,它有可能不是最好的方式。但就像键盘上的字母排布,一旦已经决定了,即便不是最优解也很难更改了,人类也已经回不到没有 OpenClaw 和 Claude Code 的世界了。

这就是应用厂商的优势。可能不像使用 MD 文件这么广泛,但通过定义一种独特的零方数据,就像定义了了行业标准。更早获得高信号上下文并沉淀成 benchmark,就有机会在垂直领域始终保持最好的效果。比如:

- 定义一种独特的界面;(姚顺雨在@张小珺 的播客里,包括 a16z 在《State of Consumer AI 2025》里面也都提到过)
- 定义一种独特的 AI 与人类、与世界交互的方式;
- 收集一种人类世界从未被大规模收集过的上下文。(现在很多 AI 硬件)

在 Agent 时代,应用厂商也拥有了对模型厂商的话语权和护城河。这种话语权源于应用厂商能比模型厂商领先一步,收集到一些独特的数据,虽然这些数据迟早会被模型厂商拿到,迟早会扩散到整个互联网世界,但只要能持续领先三个月,增量的进步就可以转化为存量的持久优势。领先一步当然不算厉害,但如果能总是领先一步呢?

在 Agent 的时代,做一艘不被模型智能水位上升而淹没的船,可能性其实更高了。
00