-
Hadoop生態圈
查看全部 -
Spark優勢
基于內存計算的分布式計算框架
抽象出分布式內存存儲數據結構 彈性分布式數據集RDD
基于事件驅動,通過線程池復用線程提高性能
查看全部 -
Spark簡介
Spark是Apache軟件基金會最重要的三大分布式計算系統開源項目之一(其他的是Hadoop和Maven)
基于內存計算的大數據并行計算框架
Spark是MapReduce的替代方案,兼容HDFS,HIVE等數據源
查看全部 -
HBase的表
可以實現存儲海量小文件的功能
查看全部 -
HBase關鍵字
RowKey:數據唯一標識,按字典排序
Column Family:列族,多個列的集合,最多不要超過3個
TimeStamp時間戳:支持多版本數據同時存在
查看全部 -
HBase簡介
高可靠,高性能,面向列,可伸縮,實時讀寫的分布式數據庫
利用HDFS作為其文件儲存系統,支持MapReduce程序讀取數據
存儲非機構化和半結構化數據以及結構化數據
查看全部 -
Hadoop生態圈
查看全部 -
Deep thinking
查看全部 -
Conclusion
查看全部 -
Reduce
查看全部 -
Map
查看全部 -
YARN(Haoop2之后的資源管理器)概念
? ? ? 1.ResourceManager:分配和調度資源;啟動并監控ApplicationMaster; 監控NodeManager
? ? ? 2.ApplicatonMaster:為MR類型的程序申請資源,并分配給內部任務;負責數據的切分;監控任務的執行及容錯;
? ? ? 3.NodeManager:管理單個節點的資源;處理來自ResourceManager的命令;處理來自ApplicationMaster的命令
? ? ?MapReduce是一種編程模型,是一種編程方法,是抽象的理論;
MapReduce編程模型
? ? ? 輸入一個大文件,通過Split之后,將其分為多個分片;每個文件分片由單獨的機器去處理,這就是Map方法 ?;將各個機器計算的結果進行匯總并得到最終的結果,這就是Reduce方法。
查看全部 -
兩個問題:?
1,數據塊一般設置多大比較合適??
128M,因為如果設置太大不利于文件的讀取,設置太小會將一些比較小的文件也會被進行分割,比較耗費內存?
2,nameNode掛掉了怎么辦? 在Hadoop2中會有容錯機制,會有兩個nameNode,另一個會處于備用的狀態,當nameNode掛掉了之后,secondNameNode會被啟動的,這樣是用戶無感知的
查看全部 -
hdfs的一些常用命令:
一些與Linux命令相同:ls cat vi 等?
還有一些是hdfs專用的命令: copyToLocal hdfs文件系統向本地拷貝?
copyFromLocal ?從本地向hdfs文件系統拷貝?
get 下載文件 put 上傳文件?
./hdfs dfs -help 可以查看hdfs命令的說明
查看全部 -
HDFS讀流程
客戶端向NameNode發起讀數據請求;
NameNode找出距離最近的DataNode節點信息;
客戶端從DataNode分塊下載文件;
查看全部
舉報