即刻App年轻人的同好社区
下载
App内打开
许涵之
69关注3k被关注5夸夸
AI PM,在做一款 AI 硬件
前字节 PM,腾讯产培
公众号、小红书同名
wx:xqys_wx
置顶
许涵之
3月前
加入了一家 AI 硬件初创公司。即刻上的朋友在看机会的,一定要来考虑考虑我们这儿啊(๑>ڡ<)✌️。

公司的介绍可以看这篇小红书的帖子,我就不再赘述了。三个关键词:Always On、AI Memory、Proactive Agent。当然,都是一些比较共识的词了,但我们也有一些自己独特的思考。无论是对这份工作感兴趣,还是单纯想聊聊的朋友,都可以来找我呀,我往返北京深圳,可面基可线上。

在这条帖子下评论、私信或者加我微信都可以的~

神仙AI公司招人了!社招非校招! - 小红书

169
许涵之
2天前
Claude Code 人机共创、多轮编辑一个 MD 文档。

有时候我对它有很多修改意见,但因为 MD 文档没有评论功能,最开始我直接描述在对话框里面,但修改哪个位置都要描述一遍,很累。

后来我让它生成飞书文档我来进行局部评论,让它读评论来修改文档。

但最后我发现我想复杂了。其实不需要评论功能,只要有一个不常出现的标记来标识它是评论意见就好了。

所以后来我直接在 MD 文档里面用双尖括号<< >>把内容括起来,告诉它这就是我的评论,让它按照这些意见去修改 MD 文档对应位置的内容就好了🤗。
32
许涵之
2天前
Plaud 开始发力了。

www.plaud.ai
Agent 可以读转录文本和摘要了

www.plaud.ai
还推出了一个 Plaud Embedded,需要内测申请。主要更新包括:
1. Plaud SDK
可以让开发者将其集成在自家的移动应用里面,直接借助 Plaud 的硬件获得录音的上下文,不用考虑蓝牙、WiFi 快传这些底层工作。
感觉利好纯软件团队如果想涉足语音硬件但是没有硬件经验的,那就可以和 plaud 合作。
其实这就有点像飞书和安克合作一样,只不过它不是封闭的,而是开放的。
2. 转录 API
就像微软云和阿里云的那种一样,支持几百种语言、说话人识别以及降噪等功能。

而就在 Plaud 推出 MCP 和 CLI 的同一天,一个中国的类 Plaud AI 硬件产品拿下了 Product Hunt 日榜第一, Memoket 也称自己为 Context layer,不是 note-taker。
"We're building the context layer of the AI stack: the infrastructure that connects human physical-world experience to the digital tools people rely on."
— Memoket About 页 memoket.ai/pages/about-us

最近 Granola 也重塑战略定位为 "enterprise AI context layer",主推 Granola MCP:把会议数据通过 MCP 接入 。

Claude 把大家搞得不得不由封闭转开放,或者开放作为默认选项了。
22
许涵之
2天前
我前阵子换工作那段时间,把自己所有的面试录音几十个文件,全部塞进了 NotebookLM 里。
之后只要有朋友在微信上问我换工作相关的问题,"大公司病到底是啥?"、"你换工作的底层逻辑是什么?"、"AI 时代 PM 怎么找工作?"——我自己一个字都没直接回过,全部把问题转发给 NotebookLM,让它写好答案我复制回去。
写得比我好太多了。因为它有我几十份原始资料做上下文,回答比我自己临场打字组织语言要完整、要诚恳、要细节。
我开始觉得这就是我的"面试分身"。甚至幻想着以后面试官来面我,我可以先说:等等,你先跟我的分身聊聊,问问他我是怎么做评测的,他答完你觉得满意了再来约我哈哈😄
数字分身这件事我越来越觉得有戏。生物意义上的长生不老很难,但部分的数字永生——当你有一个足够完备的分身,能多模态收集你从此刻起人生所有的上下文——也许你自己感知不到,但它能让别人感知到你的"永生"。
谁不想活得久一点呢?(๑>ڡ<)
00
许涵之
3天前
可能是个 AI native 组织既不充分也不必要的条件,但我很期待的状态是:在一个组织里面,所有不能激发任何一个人好奇心的事情,都应该交给 AI,剩下的精力都应该花在那些光是想想就让人心动的事情上。
21
许涵之
11天前
我觉得这有点像推荐算法里的E&E问题。如果你一直推荐用户喜欢的、类似的东西,用户其实会感到厌倦,你需要尝试去探索一些新的内容。虽然无法从用户过去的偏好中直接推断出他们一定会喜欢什么,但算法通过某种深层的抽象,可以帮助用户探索可能喜欢的边界。

在这方面,视频号做得很差,刷一段时间就会让人觉得厌倦,因为它推荐内容的相似度实在太高了。相比之下,抖音做得还蛮不错的:我刷抖音经常会刷到一些和过去偏好几乎没有直接关系的视频,但这些新东西我就是会喜欢。本质上,这是一种更深层次、更了解你的推荐。

所以我觉得推荐算法会进步,大模型也会进步。现在的模型表现不佳,不是因为大模型太聪明,而是因为它还不够聪明,还不能像真正有情商的人一样去理解人,对记忆的使用也过于僵硬。

但这个问题肯定是可以被解决的。虽然在短期内,给 AI 更多的记忆上下文反而可能让它的表现变差,但从长期来看,拥有越多的上下文,AI 肯定会变得越来越强。它会更实时地知道什么时候该结合你的记忆,什么时候不该结合。

Trent_: 劝大家和有记忆能力的模型保持适当边界感,并且多养几个备胎 对模型记忆来说需要决定何时主动关联、何时不关联,这比记录信息更难,但目前的记忆机制显然还没有掌握好。哪怕强如ChatGPT 当它拥有你的背景信息后会过度利用,试图聪明地个性化 早上我想问个量子力学,结果ChatGPT开始规划让我发一篇关于量子力学的小红书稿……? 他错误的推断:既然你经常做小红书内容,那我猜你问量子力学也是为了创作 但是这个推论是错误的,人类问问题的动机是多样的 我可能今天想学量子力学,明天想查猫能不能吃奶油——但这两件事彼此没关系 记忆本来是减少重复操作和适当个性化,但现在会变成它越懂你,就会越容易限制你的探索边界。成为“记忆茧房”,反而一个不完全了解你的AI,能给你更多空间

13
许涵之
20天前
目前用下来体验最好的 Browser Use 方式,是来自@liaohch3 提的用 Playwright 的无头浏览器+导入一份我最常用的 Arc 浏览器的 cookies,这样就兼备了不干涉我的操作界面同时又能够复用我的登录信息的两个好处。这个 cookie 本身也是让 AI 定期导入的,所以使用上可以完全自动化,Playwright 的速度还很快。
123
许涵之
22天前
最近最大的娱乐就是跟 Claude 天南海北地聊。对于一个对任何事情都可能产生极大的、突然的好奇心的人来说,真是莫大的幸福,想起了小时候在百度上点击一个词条又一个词条深入地探索一个下午的那种快乐。
21
许涵之
27天前

liaohch3: 分享读了几篇 LLM 复盘报告的感受 最近 Anthropic、OpenAI、智谱都发布了一篇各自线上问题的复盘 blog,分别是: - Claude Code 近期质量下降的复盘 - GPT 模型莫名其妙输出“哥布林”的复盘 - 智谱 GLM-5 输出乱码、复读、生僻字的复盘 联想到去年 Anthropic 和 OpenAI 也有过类似用户侧体验降级的复盘,趁着假期,今天把几篇博客整体拿出来一起学习了一下,看看有没有共性,以及对 Agent 开发者有哪些启发。 异常的表现: 用户侧感受到的“模型表现下降”,其实不只有一种形式。 - 有些表现得像能力下降,比如 Claude Code 更容易遗忘上下文、推理接不上 - 有些是风格和人格的问题,比如 GPT-4o 某个版本变得过度谄媚,太容易顺着用户说 - 有些是表达习惯异常,比如 GPT 系列模型突然更容易输出“哥布林”这类很突兀的词 - 还有一些是更明显的输出异常,比如智谱 GLM-5 在复杂 Coding Agent 任务里出现乱码、复读、生僻字 这些问题不像传统软件 bug 那样明显,也不一定容易发现和复现;它们不一定会直接体现在 benchmark 榜单上,但真实用户在连续使用过程中会冷不丁感受到模型表现不如预期。 问题的原因: 不同于传统软件,大模型和 Agent 产品表现不如预期,可能是系统中任何一个环节出问题导致的。从下到上,可能是模型问题、推理引擎层问题,也可能是 Agent 产品 harness 问题。 - 模型问题:去年 GPT-4o 某个版本表现得过于谄媚、今年 GPT 模型输出“哥布林”概率升高,都属于模型层的问题。再往底层追溯,可以反映为训练数据质量问题,以及训练时的奖励信号问题。更谄媚的表现和“哥布林”输出,在训练过程中更容易被奖励模型判定为好的输出,最终结果就是训练出来的模型不符合预期。 - 推理引擎问题:去年 Claude 有一段时间降智明显,当时 Anthropic 官方多次表态不会因为成本或者负载因素主动降低服务质量,最终排查出来是推理链路中的底层问题。 智谱的博客里也提到了类似的问题:GLM-5 在标准推理环境下表现正常,但在高并发、长上下文的 Coding Agent 场景下,会偶发乱码、复读、生僻字。最后定位到的不是模型本身,而是大规模推理系统里的状态管理和缓存一致性问题。 - Agent 产品 harness 问题:Claude Code 在某个版本降低默认的思考等级,本意是希望平衡智能水平和响应延迟,最终导致输出质量降低;某些 bug 导致推理历史被错误清理,后续轮次接不上前面的思考,表现出来就是用户感觉 Claude Code 更容易遗忘;还有一段为了防止模型输出太冗长的系统提示词,也导致了编码质量下降。 漏放的原因: 还有一个比较深的感受就是,即使 LLM 公司内部已经有不少发布前准出机制,仍然会有一些导致用户负反馈的 bug 或变更漏到线上。一些谄媚的表达无法通过量化指标来识别、大规模推理时才会概率性出现的 bug 无法简单在内部环境下复现。 这说明模型的评测和准出机制仍然有覆盖不到的方面。包括后置的用户反馈通道,以及用户反馈的复现、定位和修复工具链,也需要更多提升。 对 Agent 产品开发者的启示: - Agent 产品交付的是端到端体验。 模型本身的能力和品性很重要,但 Agent harness 如何让模型在具体产品场景里稳定发挥,同样重要。开发者首先要定义清楚自己希望产品表现出什么能力、边界和风格,再结合对模型的手感,通过评测、消融实验、上下文组织、工具设计和默认配置,调配出一个合适的 Agent 环境。这个过程本身就是 Agent 开发者的差异化价值。 - 用户反馈和内部指标都重要,互相校准。 用户反馈更贴近真实体验,很多“模型变差了”“有点怪”“不如以前好用”的问题,往往是用户先感知到;但用户反馈也会比较稀疏、有噪音,并且样本有偏。内部指标更稳定、覆盖面更广,也更适合做版本对比和持续监控,但它不一定能完整代表真实用户体验。所以更好的方式不是二选一,而是把用户反馈当成问题发现信号,再把高质量反馈沉淀成内部评测、回归用例和上线准出标准。 - 建立更短的用户反馈到问题修复闭环。 用户说“产品变笨了”通常是一个模糊症状,不能直接复现。在保证用户隐私的前提下,Agent 产品尽可能保留必要的调试信息,结合用户反馈形成可分析的 bad case,引入 Coding Agent 直接进行问题复现、原因分析、代码修复、评测准出流程,让整个过程的链路更短,更少人工介入。 相关链接: - Anthropic:An update on recent Claude Code quality reports, https://anthropic.com/engineering/april-23-postmortem - OpenAI:Where the goblins came from, https://openai.com/index/where-the-goblins-came-from/ - 智谱:Scaling Pain:超大规模 Coding Agent 推理实践, https://zhipuai.cn/zh/research/159 - Anthropic:A postmortem of three recent issues, https://anthropic.com/engineering/a-postmortem-of-three-recent-issues - OpenAI:Sycophancy in GPT-4o, https://openai.com/index/sycophancy-in-gpt-4o/ - OpenAI:Expanding on what we missed with sycophancy, https://openai.com/index/expanding-on-sycophancy/

00
许涵之
1月前
使用 AI 产品的一个小技巧是,如果 AI 在多轮对话中犯了错误,可以回到它犯错之前的那轮问题开一个新的分支(如果这个产品支持这个能力的话),并在其中补充信息,让它不要再走那条路,这是一种控制上下文的手段。

所以我突然在想,这个工具是不是也可以给 AI 自己来用呢?

如果给 AI 提供一个工具,当它发现自己探索的一段路程错误时,可以调用这个工具,让自己回到这次探索之前的那轮工具调用之前。同时,它可以写一段 hint,补充在这次工具调用之后,提醒自己不要再走那条老路。

这等于给了 AI 无限次“时光倒流”的机会,会失忆,但可以给过去的自己传个小纸条,让它能以尽量少的存档路径,探索出最好的结果,并控制上下文的长度。

好像没听说有哪个 Agent 产品实现了这个功能,是我孤陋寡闻吗?还是说这样实现存在什么我没想到的问题?
23