2 回答

TA貢獻2003條經驗 獲得超2個贊
感覺現在各個公司使用Hadoop的方式都不一樣,主要我覺得有兩種吧。
第一種是long running cluster形式,比如Yahoo,不要小看這個好像已經沒什么存在感的公司,Yahoo可是Hadoop的元老之一。這種就是建立一個Data Center,然后有幾個上千Node的Hadoop Cluster一直在運行。比較早期進入Big Data領域的公司一般都在使用或者使用過這種方式。
另一種是只使用MapReduce類型。畢竟現在是Cloud時代,比如AWS的Elastic MapReduce。這種是把數據存在別的更便宜的地方,比如s3,自己的data center, sql database等等,需要分析數據的時候開啟一個Hadoop Cluster,Hive/Pig/Spark/Presto/Java分析完了就關掉。不用自己做Admin的工作,方便簡潔。
所以個人如果要學Hadoop的話我也建議第二種,AWS有免費試用時間(但是EMR并不免費,所以不要建了幾千個Node一個月后發現破產了),可以在這上面學習。最重要的是你可以嘗試各種不同的配置對于任務的影響,比如不同的版本,不同的container size,memory大小等等,這對于學習Spark非常有幫助。
總的來說Hadoop適合應用于大數據存儲和大數據分析的應用,適合于服務器幾千臺到幾萬臺的集群運行,支持PB級的存儲容量。Hadoop典型應用有:搜索、日志處理、推薦系統、數據分析、視頻圖像分析、數據保存等。
- 2 回答
- 0 關注
- 1043 瀏覽
添加回答
舉報