1 回答

TA貢獻1827條經驗 獲得超4個贊
1、HadoopHadoop 采用 Map Reduce 分布式計算框架,根據 GFS開發了 HDFS 分布式文件系統,根據 Big Table 開發了 HBase數據存儲系統。Hadoop 的開源特性使其成為分布式計算系統的事實上的國際標準。Yahoo,Facebook,Amazon 以及國內的百度,阿里巴巴等眾多互聯網公司都以 Hadoop 為基礎搭建自己的分布。
2、Spark
Spark 是在 Hadoop 的基礎上進行了一些架構上的改良。Spark 與Hadoop 最大的不同點在于,Hadoop 使用硬盤來存儲數據,而Spark 使用內存來存儲數據,因此 Spark 可以提供超過 Ha?doop 100 倍的運算速度。由于內存斷電后會丟失數據,Spark不能用于處理需要長期保存的數據。
3、 Storm
Storm 是 Twitter 主推的分布式計算系統。它在Hadoop的基礎上提供了實時運算的特性,可以實時的處理大數據流。不同于Hadoop和Spark,Storm不進行數據的收集和存儲工作,它直接通過網絡實時的接受數據并且實時的處理數據,然后直接通過網絡實時的傳回結果。
4、Samza
Samza 是由 Linked In 開源的一項技術,是一個分布式流處理框架,專用于實時數據的處理,非常像Twitter的流處理系統Storm。不同的是Sam?za 基于 Hadoop,而且使用了 Linked In 自家的 Kafka 分布式消息系統。
Samza 非常適用于實時流數據處理的業務,如數據跟蹤、日志服務、實時服務等應用,它能夠幫助開發者進行高速消息處理,同時還具有良好的容錯能力。
- 1 回答
- 0 關注
- 1640 瀏覽
添加回答
舉報