ChatGPT 狂热之中,特德·姜(Ted Chiang)这篇文章提供了冷静的思考。ChatGPT 产生的内容可能是模糊的正确、貌似可信的错误。最可怕的是,新版语言训练模型今后进行海量文本训练时,同时吞下了 ChatGPT 生成的模糊信息,周而复始。。
特德·姜(Ted Chiang):「这种与有损压缩的类比不仅仅是一种理解ChatGPT通过使用不同的单词重新打包万维网上找到的信息的方法,它也是一种理解“幻觉”或对事实性问题的无意义回答的方法。而大语言模型(如ChatGPT)都很容易出现这种情况。这些幻觉是压缩后的产物。但是,就像施乐复印机产生的错误标签一样,它们似乎是可信的,要识别它们就需要将它们与原件进行比较。在这种情况下,这意味着要么是万维网,要么是我们自己对世界的认识。当我们这样想的时候,这样的幻觉一点也不令人惊讶。如果一种压缩算法被设计成在99%的原始文本被丢弃后重建文本,我们应该预料到它生成的很大一部分内容将完全是捏造的。」