亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

已解決430363個問題，去搜搜看，總會有你想問的

對抗反爬蟲策略

首頁猿問對抗反爬蟲策略

爬蟲

繁花不似錦 2018-10-10 12:13:20

我的問題如下：我需要抓取一個網站的數據來做一些統計研究，但是這個網站有嚴格的反抓取策略。目前看來，利用pyspider框架進行一段時間的抓取后，網站就會禁止我訪問。有沒有什么好的辦法使得pyspider能夠抓取一段時間后停止抓取，然后隔一段時間有恢復抓取的策略呢？

查看完整描述

largeQ

TA貢獻2039條經驗獲得超8個贊

1.self.crawl中增加auto_crawl=True，并設置好間隔時間，比如age=60*60
這樣一個小時后，pyspdier會去自動抓取網頁

2.修改webui中的rate/burst，默認是1.0/3,可以改成0.2/3試試，降低抓取頻率

3.可以在crawl_config中增加proxy.

反對回復 2018-10-14

關注

舉報

0/150

提交

取消

購課補貼
聯系客服咨詢優惠詳情

慕課網APP
您的移動學習伙伴

掃描二維碼
關注慕課網微信公眾號