亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

用Python寫網絡爬蟲怎么樣?

用Python寫網絡爬蟲怎么樣?

慕田峪7331174 2018-10-10 15:11:54
用Python寫網絡爬蟲怎么樣
查看完整描述

1 回答

?
拉莫斯之舞

TA貢獻1820條經驗 獲得超10個贊

python非常適合寫網絡爬蟲,語法簡單,代碼簡練,可用的庫成熟強大。
常用的庫有urllib2、 requests 、selenium 、Scrapy框架等,一般簡單的網頁連接登錄用requests就好了,使用簡單、功能強大;
HTML內容用BeautifulSoup解析就ok了,lxml、html.parser都是很方便的解析庫,和正則表達式搭配使用效果更佳。
處理JavaScript的動態HTML,用selenium+PhantomJS或firefox的網站自動化測試的思路就可以做到。存儲數據建議用mongdb數據庫,都是超簡單的操作。
處理驗證碼可以訓練Tesseract做到。
如果網站有api的話,那將是最快速、最方便的數據采集途徑了。
另外,python是進行數據處理最好的編程語言了,數據的采集是數據處理的第一步。

查看完整回答
反對 回復 2018-11-06
  • 1 回答
  • 0 關注
  • 1458 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號