即刻App年轻人的同好社区
下载
App内打开
汉松
96关注259被关注0夸夸
大厂大模型应用开发 | AI实践者 | 终身学习者
汉松
6天前
MiniMax只有400多人。

我第一次听到这个数字的时候是不相信的。语音、视频、文本,好几条产品线同时在跑,而且都是业界领先水平。400人怎么做到的?

最近看了闫俊杰和罗永浩的访谈,我找到了一部分答案。

当聊到模型研发失败的时候怎么办,闫俊杰说他会做两件事:一是用第一性原理帮团队拆解问题,让大家看到「这事还是能成的」;二是给大家发更多的钱,而且不是「等做成了再发」,是「现在就发」。

罗永浩当时就问:管用吗?闫俊杰说管用。

我觉得这就是400人能打出这种效率的原因之一。遇到难啃的骨头时,只要核心的人不走,士气不崩,方向清晰,就一直往前推。

反观很多公司,进展顺利的时候画饼,不顺利的时候PUA,结果核心的人跑光了,项目也黄了。

兵马未动粮草先行,古人早就说过了。但真正能做到的老板,又有几个?

希望老板们都学习一下闫俊杰:少画饼,多发钱。
11
汉松
7天前
我之前觉得 Manus 肯定打不过 ChatGPT Agent。原因很简单:OpenAI 掌握模型,可以针对性优化,上限更高。

但最近看到 Manus 创始人的访谈,他们说 7 ChatGPT Agent 发布那天,他们是「全世界最开心的人」。

为什么?因为从那天起,他们不用再回答「如果 OpenAI 也做同样的产品怎么办」这个问题了。结果就摆在那里:Scale AI 的评测榜单里,Manus 第一,ChatGPT Agent 第四。所有的任务 Manus 都赢了。

Manus 的胜出,关键在于两点:

首先是,模型公司都被自家模型绑住了手脚。2025 年各家模型各有优势,Manus 可以按需选择模型:Gemini 搜索最强,GPT-5 推理最强,Claude 写代码最稳。但 OpenAI 的产品经理不可能去用 Anthropic 的模型。这种差异化短期内不会消失,各家的商业模式和技术路线决定了资源投入方向:Google 死磕搜索和多模态,Anthropic 押注安全和代码,OpenAI 追求通用智能。全面补齐短板的成本太高,各家肯定都会优先守住优势。

更重要的是 Agent 竞争不是比模型,是比整个系统。真正影响成功率的,往往是任务拆解、工具链、失败重试、上下文管理这些工程细节:比如它如何保存中间结果、如何从错误日志定位问题、如何回滚并继续跑,而不是从头再来。更关键的是,这套「上下文工程」的实践经验不是天上掉下来的,它需要在真实任务场景里一刀一枪练出来。OpenAI 可以一夜之间招到五百名工程师,却买不到 Manus 在过去一年踩过的成千上万个坑。

这对我很有启发。在大模型百花齐放的时代,当巨头们忙着造更强的剑时,应用层的机会在于做一个灵活的剑客:专注剑术,至于剑本身,谁好用谁。
15
汉松
13天前
情绪是什么?OpenAI 前首席科学家 Ilya Sutskever 在访谈中提到的一个案例让我有了新的理解。

有个人因为脑损伤失去了所有情绪:不悲伤、不愤怒、不兴奋。听起来像是进入了一种令人羡慕的“纯理性”状态,可以做出非常理性的决定。

但结果恰恰相反:跟情绪一起消失的,还有他的决策能力。他选袜子要花几小时,炒股更是亏得裤衩都没了,尽管他的智力测试完全正常。

原因也很简单:情绪不仅仅是心情,它本质上是大脑的一套“价值函数”。

进化给人类装了这套系统,让我们能快速评估“这个好不好”、“值不值得”,不用每件小事都从头推理。失去情绪,就是失去了这个内置的评估器。

这正是 Ilya 认为现在的大模型缺少的东西。大模型通过预训练获得了知识和推理能力,但缺少类似的内置价值系统。

所以才会出现这种情况:AI 在编程竞赛表现上面有超人的表现,实际写代码却反复犯下低级的错误。知识有了,但“这样写感觉不对”的直觉,还没有。
01
汉松
14天前
最近在 Reddit 上面看到一个AI检测工具的故事,挺有意思的。

一个人帮他老婆改研究生论文。他老婆的写作风格是意识流,不太懂学术规范,他就帮着大改了一遍。

结果,他眼睁睁看着老婆把那些漂亮的句子一个个删掉,换成更笨拙的表达。

原因很离谱:初稿的 AI 检测率为 0%,他改完之后的版本跳到了 12%。她必须把那些“看起来像 AI 写的部分”改回去。

这位丈夫没有生气,他只是看到了一个正在发生的现实:学生们可能正在学习一种奇怪、笨拙的写作方式,只是为了不被 AI 检测器标记出来。

其实类似的事情早就发生过了,叫应试教育。

为了通过考试,学生学会了一套“正确但无用”的八股。高考有高考体,雅思有雅思体。学生通过了考试,写作能力却废了。现在 AI 检测器也在制造同样的问题。

这是一个无解的死局。学校要防止学生作弊,老师要有评判标准,学生要通过考试,检测工具公司要卖产品。每个人都在做正确的事情,但所有“正确”加在一起,却了造成一个哭笑不得的局面:惩罚写得好的人,奖励写得笨拙的人。

完全放弃 AI 检测也不现实,等于放任作弊。但用检测器,就必然会误伤一部分人(比如那些写作能力本来就很好的人)。

系统层面只能不断优化,没有完美解。对个人来说,也只能适应游戏规则,然后自己谋求出路。

这大概就是我们这个时代的“八股文”吧。
00
汉松
19天前
哆啦A梦带你读懂DeepSeek V3.2的论文
11
汉松
22天前
让哆啦 A 梦来给大家解释一下 DeepSeek 的新论文:DeepSeek-Math-V2,非技术背景的人也能看懂。
00
汉松
24天前
一键生成哆啦A梦PPT漫画的方法。这里要用到NotebookLM 生成 PPT 功能中的自定义提示词方法,prompt 是“让大雄和哆啦A梦为主人公,以漫画形式,带领读者由浅入深地学习并了解这篇文章”,具体操作可以看截图。
21
汉松
25天前
经过一个月的打磨,Multi-Agent 强化学习的框架 MrlX 在 DeepResearch 上面的实验论文发布了,感兴趣的朋友可以看一下。
接下来邀请哆啦 A 梦给大家介绍一下我们的论文:《大雄的超级分身特训!—— M-GRPO 大作战》
arxiv.org
00
汉松
28天前
最近,我在研究AI生成网页应用的方案,有个很现实的问题:AI 开发的应用,怎么接数据库?比如做一个运动记录工具,如果没有把历史数据写入数据库,一刷新页面,所有记录就清空了。

为了解决这个问题,我研究Bolt 的原理,发现方案很简单。我们只需要在 Prompt 里告诉模型,“使用 Supabase 将应用的数据持久化”。然后模型就会写代码调用Supabase的 API 创建数据库。你不需要把 API 文档粘贴进去,也不需要解释参数的结构。模型已经知道该怎么做了。

为什么?因为这些模型在训练时,已经阅读了互联网上成千上万行关于 Supabase 的代码。换句话说,那些原本散落在 GitHub、博客和文档里的知识,如今都被“压缩”进了模型的参数里。

于是我突然意识到,大模型事实上成为了互联网的大脑,它存储了整个互联网的知识。我们正在感受它带来的变化。

比如说,我在做技术选型的时候,那我一定优先选择模型“认识”的方案,比如 Supabase,这样我不需要浪费额外的 API 文档在宝贵的模型上下文上面。

想到这里,我忽然有个脑洞:古人追求的是青史留名,被史书记住。而在AI 时代的“青史留名”,也许就是能被大模型记住吧。
35
汉松
2月前
我们团队开源了 Multi-Agent 强化学习的框架 MrlX,它能够让你同时训练多个 Agent 模型。

当我们试图让大模型变得更聪明时,大多数人都在做同样的事:训练一个模型,让它自己跟自己对话,希望它能学会反思验证,能学会使用工具。

但如果你仔细想想,这其实很奇怪。

真实世界不是这样运作的。人们是在与其他人的互动中变聪明的。医生通过与病人交谈来提升诊断能力,而病人也在这个过程中学会更好地描述症状。这是一种共同进化。

这就是我们做 MrlX 的原因。

核心想法很简单:让两个 Agent 互相帮助对方成长。一个是“探索者”,负责在真实环境中冒险尝试;另一个是“适应者”,它观察刚刚发生的一切,然后快速调整自己。它们像台阶一样互相垫脚,螺旋式上升。

我们在两个场景中测试了这个想法。

第一个是医生 - 病人对话训练。传统做法是只训练医生 Agent,但我们在思考一个问题:如果病人 Agent 也在进化,会不会让医生 Agent 进化更快?就像真实世界一样:好的病人能帮助医生成为更好的医生,反之亦然。结果证明,联合训练两者比只训练医生要强得多。

第二个场景更复杂:让 Agent 做深度研究。这里的问题是,当你需要频繁使用工具、查询信息时,单个 Agent 的“记忆”会爆炸:它要记住所有工具调用、所有中间结果,很快就撑不住了。解决方案?分工。让不同的 Agent 专注于不同的任务,同时让它们互相训练对方。一个负责主线推理,一个负责处理子任务。它们各自深化自己的专长,同时为对方生成训练样本。

这不是让一个模型假装扮演不同角色。这是真正的多个 Agent,各有专长,共同进化。

两个案例的结果都显示:这种共同进化的方式,在稳定性、收敛速度和最终性能上,都明显超过单 Agent 方法。

最好的创业公司不是一个天才独自工作,而是一群互补的人互相激发。联合创始人之间的张力和协作,往往比任何一个人单独能做到的都要好。MrlX 做的就是这个,只不过是在 AI Agent 之间。

现在这还只是开始。我们只探索了两个场景,都是相对受控的环境。真正有趣的是当你把这个想法推广到更多 Agent、更动态的环境时会发生什么。也许 Agent 可以自己决定要扮演什么角色。也许它们可以形成自组织的生态系统。

欢迎大家使用我们的框架尝试 Multi-Agent 的强化学习,如果觉得有帮助,可以给我们的项目一个 star。
10