在網絡爬蟲中使用Java語言,比較好操作的。這樣的框架各位有用過的,或者是看別人用過相對比較好的技術方案,希望各位分享給我
5 回答

慕少森
TA貢獻2019條經驗 獲得超9個贊
自己做簡單的網站爬蟲??梢杂眠@些:
請求:HttpClient
解析HTML:Jsoup
模擬瀏覽器:htmlunit
成熟的爬蟲框架:
1.nutch
地址:apache/nutch · GitHub
apache下的開源爬蟲程序,功能豐富,文檔完整。有數據抓取解析以及存儲的模塊。
2.Heritrix
地址:internetarchive/heritrix3 · GitHub
很早就有了,經歷過很多次更新,使用的人比較多,功能齊全,文檔完整,網上的資料也多。有自己的web管理控制臺,包含了一個HTTP 服務器。操作者可以通過選擇Crawler命令來操作控制臺。
3.crawler4j
地址:yasserg/crawler4j · GitHub
因為只擁有爬蟲的核心功能,所以上手極為簡單,幾分鐘就可以寫一個多線程爬蟲程序。

呼如林
TA貢獻1798條經驗 獲得超3個贊
簡單的逆向的話可以用直接用Apache的HttpClient模擬請求,需要登錄的要自己維護cookie和session,然后調用api用jackson框架將返回的json數據映射到對象。如果是解析html頁面的話,可以用webmagic框架,功能豐富,但是沒有登錄模塊。
添加回答
舉報
0/150
提交
取消