国外一家人工智能公司针对40款 AI 模型做的【事实可靠性】测试,结果令人担忧:
1. 0分意味着正确和错误一半一半跟投硬币差不多,结果只有4个模型得到正分,最高分 Gemini 3 pro 只有13分
2. 正确率方面,Gemini 3 pro 最高,也只有53%
3. Gemini 3 pro 的幻觉率高达88%——意味着 它打错的问题里面有88% 是“装懂”
4. 国产模型全面沦陷,综合表现最好的是 kimi,智谱/minimax/千问垫底
国内媒体很少报道这些测试~
但是机器幻觉是一个不容忽视的事实~
全世界最好的模型也就是“没那么差”而已,绝对谈不上好
特别是当他们“一本正经胡说八道”的时候~特别容易被忽悠
如果选择全盘和无条件相信 AI 是很可怕的~这时候突显了批判性思维的重要性