“目前所有的主流AI爬虫无法渲染JavaScript”
-来自Vercel2024年关于AI爬虫的一篇博客,建议所有想做GEO的朋友看看
Main Takeaways:
1️⃣AI爬虫中排第一的Googlebot和排2-5的GPTBot,Claude,AppleBot,PerplexityBot加起来差不多
2️⃣相较传统搜索引擎爬虫,AI爬虫的大部分运行在美国数据中心
3️⃣所有主流AI爬虫都不渲染JS(OpenAI,Anthropic,Meta,Byte Dance,Perplexity),除了Gemini
(Gemini用Googlebot,可以完整渲染:Googlebot分两步运作;1. 抓取Initial HTML(立即索引),所有Static Resources和Javascript,但不执行脚本;2. 在初始抓取后按顺序渲染,用headless Chromium执行JS,客户端代码和API数据,解析完全渲染的DOM,索引新内容)
4️⃣AI爬虫抓取内容有明显偏好:ChatGPT优先抓取HTML(57%),Claude重点抓图片(35%),谷歌爬虫分布均匀(31%HTML,29%Json,20%纯文本,15%JS)
5️⃣对于页面爬取AI爬虫很低效:ChatGPT将33%的请求用在404页面(Claude也差不多),14%的请求用在跟随重定向,谷歌则只有8%和1%
6️⃣自然流量越高的页面AI爬虫爬取越频繁;在URL选择上不太可预测
Vercel对希望被AI爬虫抓取内容网站的建议(换言之就是GEO):
1. 优先用SSR,ISR或SSG
2. 用CSR加载非必要的动态元素
3. 高效管理URL
如果不说这是GEO,说是针对SEO的建议也没毛病,因为搜索引擎爬虫也无法抓取渲染后的JS;这也是发帖目的,目前概念很火,但给大家泼泼冷水:AI爬虫本身有不少问题,除此大部分网站SEO都很烂就想做GEO,属于还没学会走就想学跑了,目前没看到很多GEO native的方式,大部分都是给SEO做加法
打个比方就类似llms.txt这种文件可能是舍本逐末,如果整个网站已经是LLM friendly的情况下
其实做好GEO也很简单:内容用户友好-搜索引擎友好的情况下再做到大语言模型友好,并且AI爬虫/LLM联网搜索调用的搜索API可见就行了
————————————
那么如果你不希望网站内容被大模型抓取训练该怎么办?
-多塞点Javascript进去
其他参考文献:
seo.ai