-
什么是大數據?
大數據即使一個概念也是一門技術,是在以Hadoop為代表的大數據平臺框架上進行各種數據分析的技術。
大數據包括了以Hadoop和spark為代表的基礎大數據框架。還包括實時數據處理,離線數據處理;數據分析,數據挖掘和用機器算法進行預測分析等技術
查看全部 -
hdfs3查看全部
-
3-2查看全部
-
2-3查看全部
-
HDFS缺點查看全部
-
HDFS優點查看全部
-
NameNode概念
查看全部 -
Spark優勢
基于內存計算的分布式計算框架
抽象出分布式內存存儲數據結構 彈性分布式數據集RDD
基于事件驅動,通過線程池復用線程提高性能
查看全部 -
Spark簡介
基于內存計算的大數據并行計算框架
Spark是MapReduce的替代方案,兼容HDFS,HIVE等數據源
查看全部 -
HBase關鍵字
RowKey:數據唯一標識,按字典排序
Column Family:列族,多個列的集合,最多不要超過3個
TimeStamp時間戳:支持多版本數據同時存在
注:HBase可以存小文件,結構,非結構數據,HDFS適合儲存大文件
查看全部 -
HBase簡介
查看全部 -
Hadoop生態圈
Hive是一個數據倉庫,提供大量結構化數據的檢索功能;
HBase是一個列式數據庫;
Spark是一個基于內存的分布式計算框架
查看全部 -
MapReduce編程模型
輸入一個大文件,通過Split之后,將其分為多個分片;
每個文件分片有單獨的機器去處理,這就是Map方法;
將各個機器計算的結果進行匯總并得到最終的結果,這就是Reduce方法
查看全部 -
YARN概念
是Hadoop2.0以后的資源管理器,負責整個集群資源的管理和調度,所有的MapReduce程序都要通過YARN來進行調度
(1)ResourceManager
分配和調度資源;啟動并監控ApplicaMaster;監控NodeManager
(2)ApplicationMaster
為MapReduce類型的程序申請資源,并分配給內部任務;負責數據的切分;監控任務的執行及容錯
(3)NodeManager
管理單個節點的資源;處理來自ResourceManager的命令;處理來自ApplicationMaster的命令
查看全部 -
MapReduce簡介
MapReduce是一種編程模型,是一種編程方法,是抽象的理論
查看全部
舉報