最近这半年一直在折腾agent。日报、信息订阅这些应用也都做过了。但这些东西给我的感觉特别像智能家居,它告诉你“这个东西很🐮🍺”,结果每次演示,无非还是“打开窗帘”“打开灯”“打开空调”。你看着这些场景,目瞪口呆,在心里呐喊:这到底哪里🐮🍺了?!
所以我一直在想,如今 agent 的能力到底能帮我个人做点啥?
还真有一个:给孩子做一个个人家庭老师。
我一开始的想法很简单,把批改作业这件事帮我做了,把默写语文词语、英语单词这件事帮我做了。听起来都很小,但真上手之后才发现,做一个能跑的 agent 不难,做一个真的好用的产品很难,总结了几点感受来分享。
- 细节!细节!还是细节!
拿默写来说,表面上只是把文本用 TTS 转成语音。但真实的默写场景不是这样。老师不会用正常语速一路读完,而是会刻意放慢,会拆开节奏,会在引导词和目标词之间留出反应时间。
想象一下,我们在默“你好”,老师可能会读成:“你……好……你……好……”
但默认 TTS 不是这样的。它就是一段连续、标准语速的输出,哪怕重复两遍,孩子还是可能听不清、跟不上。这种细节很小,但特别典型。你不做一遍,根本意识不到它会直接决定这个功能到底是不是能用。
- 没有多模态,一切都是空
默写这个场景不是纯文本。首先要给书本拍照,把词语录进去;然后 agent 出题,孩子默写;默写完之后再拍照,让 agent 批改。只有这样,它才知道孩子到底掌握了什么、错在什么地方,下次要不要再默。
如果没有多模态,意味着你要一个个手动录词语,孩子写完之后你还要自己批改,再把结果告诉 agent。那我到底是在用 agent,还是在给 agent 打工?
这次被 doubao 的多模态识别效果震惊到了。我原本已经准备好“它识别一遍,我再人工改一遍”,结果实际用下来,很多小朋友写得特别抽象的内容,它一遍就能识别出来。这已经不是“勉强能用”,而是可以放心大胆的投入生产的地步程度。
- 速度是王道!
我自己用下来的体感是,只要响应慢,很多设计都会被抵消。比如一句指令发出去,几十秒甚至更久才返回,在这种高频交互场景下,我作为用户都会开始怀疑是不是哪里出问题了。
这点上,豆包就做得很好。像拍照批改这种场景,在豆包 App 里基本 10 秒内就能出结果。这里面一定不只是模型本身的问题,产品和工程上应该也做了很多处理。因为我作为用户最后只会感受到慢,而不会去猜想是不是GLM把我限速了。
- 模型依然关键
我原本以为,现在模型之间的差距已经缩小到“只要把 agent 流程做好就行”的程度。但做薄弱点分析的时候,发现自己还是太乐观了。
我的设想是:每次记录孩子的错题,分析为什么错,再每周生成针对性的强化练习。这个思路看起来很顺,但实际跑下来,在“为什么错”和“规律是什么”这两件事上,模型差异还是很明显。
我用 GLM-5.1 跑过,已经算是不错的国产模型了,但在稳定归因和行为模式总结上,效果依然不行。后来我把这一步单独交给 GPT-5.5 extra high 模式去做,只是换了模型,结果就明显好了很多。