用Python寫網絡爬蟲怎么樣
用Python寫網絡爬蟲怎么樣?
慕田峪7331174
2018-10-10 15:11:54
TA貢獻1820條經驗 獲得超10個贊
python非常適合寫網絡爬蟲,語法簡單,代碼簡練,可用的庫成熟強大。
常用的庫有urllib2、 requests 、selenium 、Scrapy框架等,一般簡單的網頁連接登錄用requests就好了,使用簡單、功能強大;
HTML內容用BeautifulSoup解析就ok了,lxml、html.parser都是很方便的解析庫,和正則表達式搭配使用效果更佳。
處理JavaScript的動態HTML,用selenium+PhantomJS或firefox的網站自動化測試的思路就可以做到。存儲數據建議用mongdb數據庫,都是超簡單的操作。
處理驗證碼可以訓練Tesseract做到。
如果網站有api的話,那將是最快速、最方便的數據采集途徑了。
另外,python是進行數據處理最好的編程語言了,數據的采集是數據處理的第一步。
舉報