python網絡爬蟲和java爬蟲有什么區別
1 回答

森林海
TA貢獻2011條經驗 獲得超2個贊
爬蟲目前主要開發語言為java、Python、c++
對于一般的信息采集需要,各種語言差別不大。
c、c++
搜索引擎無一例外使用C\C++ 開發爬蟲,猜想搜索引擎爬蟲采集的網站數量巨大,對頁面的解析要求不高,部分支持javascript
python
網絡功能強大,模擬登陸、解析javascript,短處是網頁解析
python寫起程序來真的很便捷,著名的python爬蟲有scrapy等
java
java有很多解析器,對網頁的解析支持很好,缺點是網絡部分
java開源爬蟲非常多,著名的如 nutch 國內有webmagic
java優秀的解析器有htmlparser、jsoup
對于一般性的需求無論java還是python都可以勝任。
如需要模擬登陸、對抗防采集選擇python更方便些,如果需要處理復雜的網頁,解析網頁內容生成結構化數據或者對網頁內容精細的解析則可以選擇java。
添加回答
舉報
0/150
提交
取消