终于有团队系统性研究这个问题了。
一个小站的自留地在 2024 年 5 月注意到这一问题以来,就多次在 OpenAI 相关的报道里提及这一点,也会将其作为识别模型是否由 OpenAI 推出的模型的一种验证手段。(OpenAI 自 gpt-4o 时代起再没有公开更换过分词器词表)
这个问题在大多数日常场景下并不会触发,因为这些污染词元大都训练较少,若非上文输入中包含,大模型几乎不会主动吐出来。但一旦你确实需要用到这些词,那大模型就很有可能胡说。
最近有网友发现 DeepSeek V3.1 会在输出里夹杂“极”这个 Token,个人猜测有可能也和训练集或分词器设计有关。
至于问题出现的原因,文章里已经做了解释。以我多年互联网冲浪的经验,大概率是爬虫爬到了 xx 网站挂马或者爬取后二次发布的「内容农场」。这些网站大量复制正常网站的内容,并将其批量发布,通过 SEO 手段引导搜索引擎收录和用户点击。