已解決430363個問題，去搜搜看，總會有你想問的

Java網絡爬蟲有哪些比較好的技術，技術方法或者技術框架

關注

首頁猿問 Java網絡爬蟲有哪些比較好的技術...

Java

達令說 2019-02-22 06:26:32

在網絡爬蟲中使用Java語言，比較好操作的。這樣的框架各位有用過的，或者是看別人用過相對比較好的技術方案，希望各位分享給我

查看完整描述

5 回答

慕少森

TA貢獻2019條經驗獲得超9個贊

自己做簡單的網站爬蟲?？梢杂眠@些：
請求：HttpClient
解析HTML：Jsoup
模擬瀏覽器：htmlunit

成熟的爬蟲框架：
1.nutch
地址：apache/nutch · GitHub
apache下的開源爬蟲程序，功能豐富，文檔完整。有數據抓取解析以及存儲的模塊。

2.Heritrix
地址：internetarchive/heritrix3 · GitHub
很早就有了，經歷過很多次更新，使用的人比較多，功能齊全，文檔完整，網上的資料也多。有自己的web管理控制臺，包含了一個HTTP 服務器。操作者可以通過選擇Crawler命令來操作控制臺。

3.crawler4j
地址：yasserg/crawler4j · GitHub
因為只擁有爬蟲的核心功能，所以上手極為簡單，幾分鐘就可以寫一個多線程爬蟲程序。

反對回復 2019-03-01

呼如林

TA貢獻1798條經驗獲得超3個贊

簡單的逆向的話可以用直接用Apache的HttpClient模擬請求，需要登錄的要自己維護cookie和session，然后調用api用jackson框架將返回的json數據映射到對象。如果是解析html頁面的話，可以用webmagic框架，功能豐富，但是沒有登錄模塊。

反對回復 2019-03-01

肥皂起泡泡

TA貢獻1829條經驗獲得超6個贊

webmagic

反對回復 2019-03-01

婷婷同學_

TA貢獻1844條經驗獲得超8個贊

簡單的用curl都行，復雜的當然是phantomjs了，腳本化的瀏覽器環境，可以直接和網頁里的js交互

反對回復 2019-03-01

叮當貓咪

TA貢獻1776條經驗獲得超12個贊

個人覺得這個是一個不錯的Java框架，簡單好用

反對回復 2019-03-01

關注

舉報

0/150

提交

取消