赞同。
百川最大的优势是做搜索，积累了搜索的pipeline。
从全网爬虫，数据清理，doc server建立，index server建立，检索服务的建立，rank，整套下来，工程的trick也很多。
非常有幸在百度做了移动搜索，并且和谷歌的创业团队一起做了人民搜索，算是见过最顶级的搜索引擎了。
也挺遗憾，baidu这块儿利用得不好，可能是山头之争，不然以baidu的积累，应该更快，更好。

请问，做搜索引擎的rank这一步，应该从哪里会有更好的知识来源呢？

这块儿很成熟了，直接搜论文就可以了

大模型的数据来源之全量爬虫。
其实 Common Crawl 这样级别的爬虫，技术本质就是做搜索引擎。学术界可以挖 CC 里的数据，想做 好 LLM 的必须有自己的搜索引擎。百川目前在国内领先和做过搜索有很大关系。
搜索引擎技术复杂、成熟、小众。做这个的佬们，一两年就可以让整个系统很稳定，几乎不需要人工维护，然后，开始有被边缘化的风险。
但是，过去十多年，从互联网搜索到移动互联网搜索、再到大数据、信息聚类 app、大模型，每隔几年就有一波大火的机会，需要搜索引擎打辅助。
这样看，做搜索引擎的朋友挺幸运的。

不知道说什么好，我给你表演个劈叉吧。  __😖__

47万名技术爱好者在研究人工智能or“智障”

名技术爱好者在研究人工智能or“智障”

来自圈子

人工智能讨论组