高品质的信息和知识,不仅值钱,还能够救人。这也是传统搜索结果的顺序,如此重要的原因。当排序算法滥用PageRank 中「来源」可信度的那一刻,搜索品牌就会逐渐丧失其长期价值和公信力。
而中文相关新的 AI 服务(包括大模型)遇到最大的问题,可不只是模型架构能否赶上GPT, 而是数据集本身有多糟糕。
最近多次使用 Bing 、Perplexity 来查询医药、法律等生活信息,发现各种逻辑错误和概念误导。仔细分析其中引用数据和文章,终于意识到AI 的「推理问题」主要应用了来自某乎上的软文、某度知道内容,甚至到了明显反智反科学的地步。那么问题来了,激进的国内大模型们如何面对这样的数据集? 「三不猴」能挡住这块遮羞布吗?🙉🙈🙊
反过来对个体而言,在世界复杂性指数增长、信息持续爆炸的新时代,考验人们驾驭「信号」的能力和批判性思维的难度,也越来越高,而启蒙和科普还有太长的要走。