现在AI Agent处理用户问题的思路和流程,跟之前某厂做智能音箱那会儿有很多相似的地方。比如说,都是先用语音识别(ASR)技术拿到用户说的话(query),然后进行意图识别,根据识别出来的意图调用不同的技能(skill),例如天气查询等,最后把结果整合起来返回给用户。
系统之间的协议也差不多。比如,智能音箱终端和中控的交互,就像是OpenAI这些厂家提供的跟大模型交互的API一样。中控和各个技能的交互协议,又跟最近很火的MCP协议有点像。都是把AI当成大脑,通过外部技能来补充整个系统的能力以更好的满足用户需求。
不过,现在的大模型在文本生成、文本分类/理解、信息抽取、问答这些方面,能力有大大的提升,在处理用户需求/任务时也能更加得心应手