我的問題如下:我需要抓取一個網站的數據來做一些統計研究,但是這個網站有嚴格的反抓取策略。
目前看來,利用pyspider框架進行一段時間的抓取后,網站就會禁止我訪問。有沒有什么好的
辦法使得pyspider能夠抓取一段時間后停止抓取,然后隔一段時間有恢復抓取的策略呢?
2 回答

largeQ
TA貢獻2039條經驗 獲得超8個贊
1.self.crawl中增加auto_crawl=True,并設置好間隔時間,比如age=60*60
這樣一個小時后,pyspdier會去自動抓取網頁
2.修改webui中的rate/burst,默認是1.0/3,可以改成0.2/3試試, 降低抓取頻率
3.可以在crawl_config中增加proxy.
添加回答
舉報
0/150
提交
取消