亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Scrapy 爬蟲進程設置

Scrapy 爬蟲進程設置

Helenr 2021-09-14 21:20:41
我已經構建了多個爬蟲并希望使用CrawlerProcess. 但是,在構建蜘蛛時,我對其進行了設置,因此它們的運行速度會稍慢一些,并且有下載延遲。單獨運行蜘蛛時,設置工作正常,但是當我運行所有四個蜘蛛時,它的爬行速度非??欤恍┱军c將我踢出網絡。我想知道的是為什么不CrawlerProcess遵循設置,如果有辦法實現這一點,我該如何實現。這是我如何設置它:TMP_FILE = os.path.join(os.path.dirname(sys.modules['items'].__file__), 'tmp/items.csv')process = CrawlerProcess({'FEED_FORMAT': 'csv','FEED_URI': TMP_FILE,})process.crawl(Spider1)process.crawl(Spider2)process.crawl(Spider3)process.crawl(Spider4)process.start()
查看完整描述

2 回答

?
墨色風雨

TA貢獻1853條經驗 獲得超6個贊

發生這種情況是因為每個蜘蛛都單獨運行,而它們彼此不知道。

當然,所有蜘蛛都使用相同的設置,但這是唯一的連接。

該站點必須抱怨正在執行多個請求,可能是通過相同的代理/IP,所以我建議可能使用代理迭代器服務或進一步減慢蜘蛛的速度。

您可以使用以下設置進行游戲:


查看完整回答
反對 回復 2021-09-14
  • 2 回答
  • 0 關注
  • 279 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號