為了避免爬蟲被封 IP ,網上搜索教程說需要建立代理池。但是付費代理都好貴。。。不過好在網上已經有不少免費提供代理的網站了。因此,我打算寫個爬蟲去獲取這些免費 IP ~策略步驟用種子關鍵詞例如“代理 IP ”在各個搜索引擎上搜索,獲取候選 URL爬取候選 URL ,將代理地址儲存下來驗證代理地址,將可用的代理地址放入代理池難點如何去驗證維護這些代理地址如何知道哪些代理地址適合哪些網站(可用性,響應時間)效率問題(之前寫過簡單的驗證腳本,但是效率非常低)小伙伴們有不有什么好的辦法能解決這些問題呢?
添加回答
舉報
0/150
提交
取消