最近看了些乱七八糟的叠加自己的体会后,整理了一个不成熟观察和猜想:
目前的AI搜索核心依赖的还是传统搜索引擎提供信源(微软谷歌赢麻了),但生成式AI同时又在疯狂污染信源,总会有一个节点AI搜索搜出来的很大比例也是AI生成出来的,形成“AI生成-低质量AI内容站SEO劫持-Spider收录-更多生成和抓取”的恶性循环(据Perplexity内部报告,其24%的答案溯源至AI生成网页;谷歌搜索“如何修复膝关节疼痛”前10结果中,已有3个完全由GPT-4生成并通过BERT+PyMuPDF劫持医疗关键词SEO),然后这些数据进一步还会进入主流LLM的pre-train数据中,它们还会互相蒸馏,如果没有经过过滤,最后新一版模型会进一步加强这些幻觉内容的权重。
当GPT-5的预训练数据中混入30%的GPT-4输出时,真实将不再是客观存在,而是统计概率的副产品——就像美元脱离金本位,信息正式进入信用货币时代。这时候搜索引擎“语义通货膨胀”加剧,叠加各类社媒平台二次加工成传播性更强的内容,新的一代网络驻民会被AI内容再训练,Z世代认知突变,人类认知重构发生(就如同历史被篡改)。
可能到那个时候LLM的幻觉也会变为真实了,未来的孩子们或许会困惑:为什么20世纪的人类要区分“AI生成”和“人类创作”?就像我们无法理解古人为何争论“闪电是宙斯的怒火”还是自然现象。人机认知共生带来整个信息传播生态的突变,连锁反应包括传统教育体系崩塌、区块链存证成刚需、人类抗AI黑话语言体系爆发等,不过也同时会带来新的技术变革,包括但不限于数字DNA、信息免疫系统、概率性真实评估、混合现实新认知协议等技术。
当信息系统的复杂度超越自证阈值,真实将不再依赖客观存在,而是坍缩为群体共识的算法产物。这场认知革命最吊诡的隐喻在于你此刻产生的怀疑与思考,或许正是新协议诞生的阵痛。——就如同你无法分辨我这段内容有多少是AI生成的。