大模型的数据来源之全量爬虫。
其实 Common Crawl 这样级别的爬虫,技术本质就是做搜索引擎。学术界可以挖 CC 里的数据,想做 好 LLM 的必须有自己的搜索引擎。百川目前在国内领先和做过搜索有很大关系。
搜索引擎技术复杂、成熟、小众。做这个的佬们,一两年就可以让整个系统很稳定,几乎不需要人工维护,然后,开始有被边缘化的风险。
但是,过去十多年,从互联网搜索到移动互联网搜索、再到大数据、信息聚类 app、大模型,每隔几年就有一波大火的机会,需要搜索引擎打辅助。
这样看,做搜索引擎的朋友挺幸运的。