这几天在纠结一个购买新设备的问题,于是电脑端同时问豆包、deepseek、元宝和 kimi 一样的问题并反复追问,都打开了深度思考+联网搜索。
对比结果,综合体验还是豆包最强,deepseek 官方第二,kimi 1.5k 还行,元宝开了 deepseek 模型依然垫底…
豆包的优势在于它的搜索参考内容,时间覆盖广,并且推荐的追问更精准。举个例子,当问到2025 年 XGP 会上哪些重磅游戏时,只有豆包知道 Fable 已经官宣延期到了 2026 年,而其他家都漏了,追问后才承认错误。其中 kimi 的参考网页最多,给的答案最长,虽然最勤奋但并没有更准确和清晰。
还有一个严重的体验差距,在多轮对话中会更明显。只有豆包和 deepseek 会在同一个对话里追问时,联系到用户之前的提问进行思考,在答案里会进行一些 call back 和调整。元宝和kimi 每次追问基本等于重新提问。并没有发挥在 chatbot 里互动对比搜索的context 优势。
整体体验下来,除了产品雕花增加的体验感之外,剩下的结果差异应该不是模型能力不行,而是其他家的搜索底子不行。这包括了搜索能力和做好搜索体验的经验。
至于manus ,还没有机会用上,但是让有权限的朋友问了一样的问题,酷炫了10 分钟后卡住了,没给我任何答案。