亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Java網絡爬蟲有哪些比較好的技術,技術方法或者技術框架

Java網絡爬蟲有哪些比較好的技術,技術方法或者技術框架

達令說 2019-02-22 06:26:32
在網絡爬蟲中使用Java語言,比較好操作的。這樣的框架各位有用過的,或者是看別人用過相對比較好的技術方案,希望各位分享給我
查看完整描述

5 回答

?
慕少森

TA貢獻2019條經驗 獲得超9個贊

自己做簡單的網站爬蟲??梢杂眠@些:
請求:HttpClient
解析HTML:Jsoup
模擬瀏覽器:htmlunit

成熟的爬蟲框架:
1.nutch
地址:apache/nutch · GitHub
apache下的開源爬蟲程序,功能豐富,文檔完整。有數據抓取解析以及存儲的模塊。

2.Heritrix
地址:internetarchive/heritrix3 · GitHub
很早就有了,經歷過很多次更新,使用的人比較多,功能齊全,文檔完整,網上的資料也多。有自己的web管理控制臺,包含了一個HTTP 服務器。操作者可以通過選擇Crawler命令來操作控制臺。

3.crawler4j
地址:yasserg/crawler4j · GitHub
因為只擁有爬蟲的核心功能,所以上手極為簡單,幾分鐘就可以寫一個多線程爬蟲程序。

查看完整回答
反對 回復 2019-03-01
?
呼如林

TA貢獻1798條經驗 獲得超3個贊

簡單的逆向的話可以用直接用Apache的HttpClient模擬請求,需要登錄的要自己維護cookie和session,然后調用api用jackson框架將返回的json數據映射到對象。如果是解析html頁面的話,可以用webmagic框架,功能豐富,但是沒有登錄模塊。

查看完整回答
反對 回復 2019-03-01
?
肥皂起泡泡

TA貢獻1829條經驗 獲得超6個贊

webmagic

查看完整回答
反對 回復 2019-03-01
?
婷婷同學_

TA貢獻1844條經驗 獲得超8個贊

簡單的用curl都行,復雜的當然是phantomjs了,腳本化的瀏覽器環境,可以直接和網頁里的js交互

查看完整回答
反對 回復 2019-03-01
?
叮當貓咪

TA貢獻1776條經驗 獲得超12個贊

WebCollector傳送門

個人覺得這個是一個不錯的Java框架,簡單好用

查看完整回答
反對 回復 2019-03-01
  • 5 回答
  • 0 關注
  • 689 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號