亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

python爬蟲

我想請問一下為什么使用這個程序有的網頁不會記錄在內?像這個程序里的選擇條件是/item/*那應該是整個百度百科的python頁面的所有滿足這個條件的都會記錄吧?

正在回答

2 回答

因為爬的數目少(才1000條....),理論上全部百科的網頁都可以獲取到,但是全部百科網頁的數目是你無法想象的。我爬到了各種各樣的百科信息,包括計算機、學校、人命......,你可以把爬的數量count設置為1億試試......

0 回復 有任何疑惑可以回復我~
#1

xixiyingyi

人的名稱
2017-10-12 回復 有任何疑惑可以回復我~
#2

kissingfire 提問者 回復 xixiyingyi

謝謝~那可不可以理解成當爬蟲到一個頁面時,先搜集這個頁面上所有符合的url于一個集合里,然后下一個打開的是集合中任意可能的一個url?
2017-10-13 回復 有任何疑惑可以回復我~
#3

xixiyingyi 回復 kissingfire 提問者

爬到的頁面后,通過解析,會得到這個頁面的 urls 和 其它希望得到的數據,然后將獲取到的 urls 加入到url管理器的集合里面(課程里面使用的是set()集合,所以我們取出來的時候也是隨機的),以備之后的循環爬取。數據部分就放在數據收集器里面。如此循環下去
2017-10-16 回復 有任何疑惑可以回復我~
#4

kissingfire 提問者 回復 xixiyingyi

哦哦,懂了,謝謝~
2017-10-25 回復 有任何疑惑可以回復我~
查看1條回復

那可不可以理解成當爬蟲到一個頁面時,先搜集這個頁面上所有符合的url于一個集合里,然后下一個打開的是集合中任意可能的一個url?

0 回復 有任何疑惑可以回復我~

舉報

0/150
提交
取消
Python開發簡單爬蟲
  • 參與學習       227596    人
  • 解答問題       1288    個

本教程帶您解開python爬蟲這門神奇技術的面紗

進入課程

python爬蟲

我要回答 關注問題
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號