課程
/后端開發
/Python
/Python開發簡單爬蟲
我想請問一下為什么使用這個程序有的網頁不會記錄在內?像這個程序里的選擇條件是/item/*那應該是整個百度百科的python頁面的所有滿足這個條件的都會記錄吧?
2017-10-09
源自:Python開發簡單爬蟲 7-1
正在回答
因為爬的數目少(才1000條....),理論上全部百科的網頁都可以獲取到,但是全部百科網頁的數目是你無法想象的。我爬到了各種各樣的百科信息,包括計算機、學校、人命......,你可以把爬的數量count設置為1億試試......
xixiyingyi
kissingfire 提問者 回復 xixiyingyi
xixiyingyi 回復 kissingfire 提問者
那可不可以理解成當爬蟲到一個頁面時,先搜集這個頁面上所有符合的url于一個集合里,然后下一個打開的是集合中任意可能的一個url?
舉報
本教程帶您解開python爬蟲這門神奇技術的面紗
Copyright ? 2025 imooc.com All Rights Reserved | 京ICP備12003892號-11 京公網安備11010802030151號
購課補貼聯系客服咨詢優惠詳情
慕課網APP您的移動學習伙伴
掃描二維碼關注慕課網微信公眾號
2017-10-12
因為爬的數目少(才1000條....),理論上全部百科的網頁都可以獲取到,但是全部百科網頁的數目是你無法想象的。我爬到了各種各樣的百科信息,包括計算機、學校、人命......,你可以把爬的數量count設置為1億試試......
2017-10-13
那可不可以理解成當爬蟲到一個頁面時,先搜集這個頁面上所有符合的url于一個集合里,然后下一個打開的是集合中任意可能的一個url?