汉松的个人主页

即刻App年轻人的同好社区

下载

汉松

96关注259被关注0夸夸

大厂大模型应用开发 | AI实践者 | 终身学习者

汉松

6天前

MiniMax只有400多人。

我第一次听到这个数字的时候是不相信的。语音、视频、文本，好几条产品线同时在跑，而且都是业界领先水平。400人怎么做到的？

最近看了闫俊杰和罗永浩的访谈，我找到了一部分答案。

当聊到模型研发失败的时候怎么办，闫俊杰说他会做两件事：一是用第一性原理帮团队拆解问题，让大家看到「这事还是能成的」；二是给大家发更多的钱，而且不是「等做成了再发」，是「现在就发」。

罗永浩当时就问：管用吗？闫俊杰说管用。

我觉得这就是400人能打出这种效率的原因之一。遇到难啃的骨头时，只要核心的人不走，士气不崩，方向清晰，就一直往前推。

反观很多公司，进展顺利的时候画饼，不顺利的时候PUA，结果核心的人跑光了，项目也黄了。

兵马未动粮草先行，古人早就说过了。但真正能做到的老板，又有几个？

希望老板们都学习一下闫俊杰：少画饼，多发钱。

5 11

汉松

7天前

我之前觉得 Manus 肯定打不过 ChatGPT Agent。原因很简单：OpenAI 掌握模型，可以针对性优化，上限更高。

但最近看到 Manus 创始人的访谈，他们说 7 月 ChatGPT Agent 发布那天，他们是「全世界最开心的人」。

为什么？因为从那天起，他们不用再回答「如果 OpenAI 也做同样的产品怎么办」这个问题了。结果就摆在那里：Scale AI 的评测榜单里，Manus 第一，ChatGPT Agent 第四。所有的任务 Manus 都赢了。

Manus 的胜出，关键在于两点：

首先是，模型公司都被自家模型绑住了手脚。2025 年各家模型各有优势，Manus 可以按需选择模型：Gemini 搜索最强，GPT-5 推理最强，Claude 写代码最稳。但 OpenAI 的产品经理不可能去用 Anthropic 的模型。这种差异化短期内不会消失，各家的商业模式和技术路线决定了资源投入方向：Google 死磕搜索和多模态，Anthropic 押注安全和代码，OpenAI 追求通用智能。全面补齐短板的成本太高，各家肯定都会优先守住优势。

更重要的是 Agent 竞争不是比模型，是比整个系统。真正影响成功率的，往往是任务拆解、工具链、失败重试、上下文管理这些工程细节：比如它如何保存中间结果、如何从错误日志定位问题、如何回滚并继续跑，而不是从头再来。更关键的是，这套「上下文工程」的实践经验不是天上掉下来的，它需要在真实任务场景里一刀一枪练出来。OpenAI 可以一夜之间招到五百名工程师，却买不到 Manus 在过去一年踩过的成千上万个坑。

这对我很有启发。在大模型百花齐放的时代，当巨头们忙着造更强的剑时，应用层的机会在于做一个灵活的剑客：专注剑术，至于剑本身，谁好用谁。

8 15

汉松

13天前

情绪是什么？OpenAI 前首席科学家 Ilya Sutskever 在访谈中提到的一个案例让我有了新的理解。

有个人因为脑损伤失去了所有情绪：不悲伤、不愤怒、不兴奋。听起来像是进入了一种令人羡慕的“纯理性”状态，可以做出非常理性的决定。

但结果恰恰相反：跟情绪一起消失的，还有他的决策能力。他选袜子要花几小时，炒股更是亏得裤衩都没了，尽管他的智力测试完全正常。

原因也很简单：情绪不仅仅是心情，它本质上是大脑的一套“价值函数”。

进化给人类装了这套系统，让我们能快速评估“这个好不好”、“值不值得”，不用每件小事都从头推理。失去情绪，就是失去了这个内置的评估器。

这正是 Ilya 认为现在的大模型缺少的东西。大模型通过预训练获得了知识和推理能力，但缺少类似的内置价值系统。

所以才会出现这种情况：AI 在编程竞赛表现上面有超人的表现，实际写代码却反复犯下低级的错误。知识有了，但“这样写感觉不对”的直觉，还没有。

4 01

汉松

14天前

最近在 Reddit 上面看到一个AI检测工具的故事，挺有意思的。

一个人帮他老婆改研究生论文。他老婆的写作风格是意识流，不太懂学术规范，他就帮着大改了一遍。

结果，他眼睁睁看着老婆把那些漂亮的句子一个个删掉，换成更笨拙的表达。

原因很离谱：初稿的 AI 检测率为 0%，他改完之后的版本跳到了 12%。她必须把那些“看起来像 AI 写的部分”改回去。

这位丈夫没有生气，他只是看到了一个正在发生的现实：学生们可能正在学习一种奇怪、笨拙的写作方式，只是为了不被 AI 检测器标记出来。

其实类似的事情早就发生过了，叫应试教育。

为了通过考试，学生学会了一套“正确但无用”的八股。高考有高考体，雅思有雅思体。学生通过了考试，写作能力却废了。现在 AI 检测器也在制造同样的问题。

这是一个无解的死局。学校要防止学生作弊，老师要有评判标准，学生要通过考试，检测工具公司要卖产品。每个人都在做正确的事情，但所有“正确”加在一起，却了造成一个哭笑不得的局面：惩罚写得好的人，奖励写得笨拙的人。

完全放弃 AI 检测也不现实，等于放任作弊。但用检测器，就必然会误伤一部分人（比如那些写作能力本来就很好的人）。

系统层面只能不断优化，没有完美解。对个人来说，也只能适应游戏规则，然后自己谋求出路。

这大概就是我们这个时代的“八股文”吧。

0 00

汉松

19天前

哆啦A梦带你读懂DeepSeek V3.2的论文

9 11

汉松

22天前

让哆啦 A 梦来给大家解释一下 DeepSeek 的新论文：DeepSeek-Math-V2，非技术背景的人也能看懂。

5 00

汉松

24天前

一键生成哆啦A梦PPT漫画的方法。这里要用到NotebookLM 生成 PPT 功能中的自定义提示词方法，prompt 是“让大雄和哆啦A梦为主人公，以漫画形式，带领读者由浅入深地学习并了解这篇文章”，具体操作可以看截图。

3 21

汉松

25天前

经过一个月的打磨，Multi-Agent 强化学习的框架 MrlX 在 DeepResearch 上面的实验论文发布了，感兴趣的朋友可以看一下。
接下来邀请哆啦 A 梦给大家介绍一下我们的论文：《大雄的超级分身特训！—— M-GRPO 大作战》
arxiv.org

3 00

汉松

28天前

最近，我在研究AI生成网页应用的方案，有个很现实的问题：AI 开发的应用，怎么接数据库？比如做一个运动记录工具，如果没有把历史数据写入数据库，一刷新页面，所有记录就清空了。

为了解决这个问题，我研究Bolt 的原理，发现方案很简单。我们只需要在 Prompt 里告诉模型，“使用 Supabase 将应用的数据持久化”。然后模型就会写代码调用Supabase的 API 创建数据库。你不需要把 API 文档粘贴进去，也不需要解释参数的结构。模型已经知道该怎么做了。

为什么？因为这些模型在训练时，已经阅读了互联网上成千上万行关于 Supabase 的代码。换句话说，那些原本散落在 GitHub、博客和文档里的知识，如今都被“压缩”进了模型的参数里。

于是我突然意识到，大模型事实上成为了互联网的大脑，它存储了整个互联网的知识。我们正在感受它带来的变化。

比如说，我在做技术选型的时候，那我一定优先选择模型“认识”的方案，比如 Supabase，这样我不需要浪费额外的 API 文档在宝贵的模型上下文上面。

想到这里，我忽然有个脑洞：古人追求的是青史留名，被史书记住。而在AI 时代的“青史留名”，也许就是能被大模型记住吧。

4 35

汉松

2月前

我们团队开源了 Multi-Agent 强化学习的框架 MrlX，它能够让你同时训练多个 Agent 模型。

当我们试图让大模型变得更聪明时，大多数人都在做同样的事：训练一个模型，让它自己跟自己对话，希望它能学会反思验证，能学会使用工具。

但如果你仔细想想，这其实很奇怪。

真实世界不是这样运作的。人们是在与其他人的互动中变聪明的。医生通过与病人交谈来提升诊断能力，而病人也在这个过程中学会更好地描述症状。这是一种共同进化。

这就是我们做 MrlX 的原因。

核心想法很简单：让两个 Agent 互相帮助对方成长。一个是“探索者”，负责在真实环境中冒险尝试；另一个是“适应者”，它观察刚刚发生的一切，然后快速调整自己。它们像台阶一样互相垫脚，螺旋式上升。

我们在两个场景中测试了这个想法。

第一个是医生 - 病人对话训练。传统做法是只训练医生 Agent，但我们在思考一个问题：如果病人 Agent 也在进化，会不会让医生 Agent 进化更快？就像真实世界一样：好的病人能帮助医生成为更好的医生，反之亦然。结果证明，联合训练两者比只训练医生要强得多。

第二个场景更复杂：让 Agent 做深度研究。这里的问题是，当你需要频繁使用工具、查询信息时,单个 Agent 的“记忆”会爆炸：它要记住所有工具调用、所有中间结果，很快就撑不住了。解决方案？分工。让不同的 Agent 专注于不同的任务，同时让它们互相训练对方。一个负责主线推理，一个负责处理子任务。它们各自深化自己的专长，同时为对方生成训练样本。

这不是让一个模型假装扮演不同角色。这是真正的多个 Agent，各有专长，共同进化。

两个案例的结果都显示：这种共同进化的方式，在稳定性、收敛速度和最终性能上，都明显超过单 Agent 方法。

最好的创业公司不是一个天才独自工作，而是一群互补的人互相激发。联合创始人之间的张力和协作，往往比任何一个人单独能做到的都要好。MrlX 做的就是这个，只不过是在 AI Agent 之间。

现在这还只是开始。我们只探索了两个场景，都是相对受控的环境。真正有趣的是当你把这个想法推广到更多 Agent、更动态的环境时会发生什么。也许 Agent 可以自己决定要扮演什么角色。也许它们可以形成自组织的生态系统。

欢迎大家使用我们的框架尝试 Multi-Agent 的强化学习，如果觉得有帮助，可以给我们的项目一个 star。

5 10