python爬蟲程序的原理是什么?PHP不能寫爬蟲嗎?
2 回答

慕容708150
TA貢獻1831條經驗 獲得超4個贊
爬蟲的原理是從一個起始種子鏈接
開始,發http請求
這個鏈接,得到該鏈接中的內容,然后大多使用正則匹配
出頁面里面的有效鏈接
,然后將這些鏈接保存到待訪問隊列中,等待爬取線程
取這個待訪隊列,一旦鏈接訪問過了,為了有效的減少不必要的網絡請求,我們應該把訪問過的鏈接放到一個已訪問map
中,已防止重復抓取及死循環。我以上提到的過程可能是一個比較簡單的爬蟲實現,復雜的可能不會這么簡單,但這里面有幾個概念,一個是發http請求
,一個是正則匹配
你感興趣的鏈接,一個是多線程
,另外還有兩個隊列
,理論上,任何能實現這么些概念的編程語言去寫爬蟲都是可以的,期間取舍還是看自己對熟練成都。
添加回答
舉報
0/150
提交
取消