亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何完成一個分布式爬蟲

如何完成一個分布式爬蟲

牧羊人nacy 2018-10-04 19:31:27
是這樣的,畢業設計快要開始了。最近在選題,由于很早就對爬蟲很感興趣。所以畢業設計就想做一個關于網絡爬蟲的小項目。但是覺得單一的單機爬蟲可能比較小,不太符合畢業設計的要求。所以打算做一個分布式的網絡爬蟲。如果有時間會做對數據進行分析的模塊。語言的話暫定java,之前接觸過Python但是覺得現在再學然后用來做畢設不太現實。所以想在這問一下各位大神分布式爬蟲需要學習什么?利用什么框架來完成這個命題?實現的難度如何?推薦的書籍?先謝謝了!
查看完整描述

1 回答

?
泛舟湖上清波郎朗

TA貢獻1818條經驗 獲得超3個贊

可以考慮的方向

  1. akka (一個分布式計算框架)

  2. storm (也是一個分布式計算框架)

  3. nutch (一個爬蟲+搜索引擎,分布式可以基于hadoop來做)

  4. 或者任意消息隊列系統,例如RabbitMQ,基于消息隊列你可以不基于框架自己來實現一個分布式系統

實現的難度這個很難說,如果你單機的爬蟲已經毫無壓力,那么你肯定會想到這個東西的難點并非在爬蟲這件事情本身身上,而在分布式的任務分發,數據處理方面的問題(你可以想想為什么要做一個分布式的爬蟲),但如果你已經掌握了一個分布式框架,那么會發現其實分布式的那塊的東西其實已經由框架層面幫你解決掉了,你只需要專注于爬蟲就可以了。


查看完整回答
反對 回復 2018-10-14
  • 1 回答
  • 0 關注
  • 1066 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號