是這樣的,畢業設計快要開始了。最近在選題,由于很早就對爬蟲很感興趣。所以畢業設計就想做一個關于網絡爬蟲的小項目。但是覺得單一的單機爬蟲可能比較小,不太符合畢業設計的要求。所以打算做一個分布式的網絡爬蟲。如果有時間會做對數據進行分析的模塊。語言的話暫定java,之前接觸過Python但是覺得現在再學然后用來做畢設不太現實。所以想在這問一下各位大神分布式爬蟲需要學習什么?利用什么框架來完成這個命題?實現的難度如何?推薦的書籍?先謝謝了!
1 回答

泛舟湖上清波郎朗
TA貢獻1818條經驗 獲得超3個贊
可以考慮的方向
akka (一個分布式計算框架)
storm (也是一個分布式計算框架)
nutch (一個爬蟲+搜索引擎,分布式可以基于hadoop來做)
或者任意消息隊列系統,例如RabbitMQ,基于消息隊列你可以不基于框架自己來實現一個分布式系統
實現的難度這個很難說,如果你單機的爬蟲已經毫無壓力,那么你肯定會想到這個東西的難點并非在爬蟲這件事情本身身上,而在分布式的任務分發,數據處理方面的問題(你可以想想為什么要做一個分布式的爬蟲),但如果你已經掌握了一個分布式框架,那么會發現其實分布式的那塊的東西其實已經由框架層面幫你解決掉了,你只需要專注于爬蟲就可以了。
添加回答
舉報
0/150
提交
取消