关于“大语言模型无法正确比较9.8和9.11大小”这个问题,
实际上是缺少上下文导致的。
在人类的认知里你直接问一个人哪个大,实际上有一个潜在的信息:这是两个小数。对于有小学以上学历的人结果肯定是9.8大的。
但大语言模型不一样,他的数据集里会有版本号比较这种数据,你直接问他这两个哪个大,并没有给他“这两个是数字”的信息,他可能认为这个是版本号。或者说现阶段的大语言模型并没有自己推测出这个比较是数字之间的,那么给出错误答案是合理的。
如果你带了上下文,告诉他是数字间的比较还是版本号之间的比较。很容易就能拿到正确的结果。