成了,成了,我的爬虫成了。不需要插件,不需要下载Python,102 部电视剧的评分,2 分钟就爬完了。
代码是 ChatGPT 给的,提示词是“我有 100 部电视剧,想在 colab 上,使用Python爬虫,在豆瓣上爬他们的评分,请问具体可以怎么操作呢?”的大白话。
返工过 2 版。
第一版因为豆瓣有反爬虫机制,每部电视剧都显示“未找到评分”,报错给ChatGPT后,它自己添加额外的请求头(headers);
第二版是我自己的原因,我想看到每一步的反馈,方便不满意及早调整。它说可以使用Python的print函数或其他日志记录方法,来输出当前正在处理的电视剧名称和已完成的数量,然后有改了段代码。
之前,也试过用 ChatGPT 的联网功能和联网插件去爬,但联网功能的爬虫太老实,看到反爬虫机制就作罢了;webpilot 等联网插件则太不老实,爬出来的结果乱七八糟,早就不是豆瓣上的真实数据了。
更早的时候,也有想过用chrome浏览器上的Web Scraper 插件爬。不过,每一部剧都需要重新搜一遍,印象中Web Scraper 不太能胜任。以往我都是搜完某个关键词之后,用Web Scraper把网站上的所有结果全部爬一遍。
我爱ChatGPT和colab,对我这种非技术人员实在太友好了。没学过 Python 没关系,没学过爬虫没关系,只要敢问,ChatGPT 真的敢教,colab 也真的能实现。
#AI工作流