課程
                    
                        /后端開發
                        
                            /Python
                        
                        /Python開發簡單爬蟲

python爬蟲

我想請問一下為什么使用這個程序有的網頁不會記錄在內?像這個程序里的選擇條件是/item/*那應該是整個百度百科的python頁面的所有滿足這個條件的都會記錄吧？

kissingfire

2017-10-09

源自：Python開發簡單爬蟲 7-1

關注問題我要回答

1463

操作

收起

2 回答

xixiyingyi 回答被采納 +2 積分
2017-10-12

因為爬的數目少（才1000條....），理論上全部百科的網頁都可以獲取到，但是全部百科網頁的數目是你無法想象的。我爬到了各種各樣的百科信息，包括計算機、學校、人命......，你可以把爬的數量count設置為1億試試......

0 回復有任何疑惑可以回復我~

收起回答

xixiyingyi

人的名稱

2017-10-12 回復有任何疑惑可以回復我~

kissingfire 提問者回復 xixiyingyi

謝謝~那可不可以理解成當爬蟲到一個頁面時，先搜集這個頁面上所有符合的url于一個集合里，然后下一個打開的是集合中任意可能的一個url？

2017-10-13 回復有任何疑惑可以回復我~

xixiyingyi 回復 kissingfire 提問者

爬到的頁面后，通過解析，會得到這個頁面的 urls 和其它希望得到的數據，然后將獲取到的 urls 加入到url管理器的集合里面（課程里面使用的是set（）集合，所以我們取出來的時候也是隨機的），以備之后的循環爬取。數據部分就放在數據收集器里面。如此循環下去

2017-10-16 回復有任何疑惑可以回復我~

查看1條回復

kissingfire 提問者
2017-10-13

那可不可以理解成當爬蟲到一個頁面時，先搜集這個頁面上所有符合的url于一個集合里，然后下一個打開的是集合中任意可能的一個url？

0 回復有任何疑惑可以回復我~

收起回答

舉報

0/150

提交

取消

Python開發簡單爬蟲

參與學習 227596 人
解答問題 1288 個

本教程帶您解開python爬蟲這門神奇技術的面紗

進入課程

python爬蟲

我要回答關注問題

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

python爬蟲

2 回答

python爬蟲