gpt-crawler,
github.com,一款可以将网站内容全部爬取下来,并转换成可以作为 GPTs 学习的结构化知识的工具。
例如你想制作一个数字人分身,不妨把自己在社交媒体或者个人博客的内容先抓取下来,提交给 ChatGPT 作为储备知识。
顺便推荐下它背后使用的技术框架,crawlee,
crawlee.dev,它是一个网络爬虫工具,也是一款浏览器自动化工具,在实现上,它提供了 DOM 解析能力、无头浏览器模式、异常状态码处理、队列和存储,以及大量的配置项来增强爬虫。它也是一款开源产品:
github.com