-
Hadoop是一個開源的大數據框架;
Hadoop是分布式計算的解決方案;
Hadoop = HDFS(分布式文件系統) (存儲)+ MapReduce(分布式計算)
HDFS總結:
? ? ?普通的成百上千臺機器;TB甚至PB為單位的大量的數據;簡單便捷的文件獲取;
HDFS概念:
? ?1.數據塊?
? ? ? ? ?數據塊是抽象塊,而非整個文件作為存儲單元;默認大小為64M,一般設置128M,備份3個;
? ?2.NameNode
? ? ? ? ?管理文件系統的命名空間,存放文件元數據;維護著文件系統的所有文件和目錄,文件與數據塊的映射;記錄每個文件中各個塊所在數據節點的信息;
? ?3.DataNode
? ? ? ? 存儲并檢索數據塊;向NameNode更新所存儲塊的列表;
HDFS優點:
? ? ?適合大文件存儲,支持TB、PB級別的數據存儲,并有副本策略;可以構建在廉價的機器上,并有一定的容錯和恢復機制;支持流式數據訪問,一次寫入,多次讀取最高效;
HDFS缺點:
? ? 不支持大量小文件的存儲;不適合并發寫入,不支持文件隨機修改;不支持隨機讀等低延時的訪問方式;
查看全部 -
什么是大數據?
大數據即使一個概念也是一門技術,是在以Hadoop為代表的大數據平臺框架上進行各種數據分析的技術。
大數據包括了以Hadoop和spark為代表的基礎大數據框架。還包括實時數據處理,離線數據處理;數據分析,數據挖掘和用機器算法進行預測分析等技術
查看全部 -
什么是大數據?
大數據是一個概念也是一門技術,是在以Hadoop為代表的大數據平臺框架上進行各種數據分析的技術
查看全部 -
1
查看全部 -
hdfs3
查看全部 -
Spark簡介
Spark優勢
查看全部 -
HBase簡介
簡單介紹
查看全部 -
Hadoop生態圈
查看全部 -
問題
查看全部 -
map方法
reduce方法
測試
在進行Reduce方法時進行了sort(排序)
提交到Hadoop框架上
查詢
打印結果
查看全部 -
NameNode
查看全部 -
hdfs 塊儲存
查看全部 -
YARN(Haoop2之后的資源管理器)概念
? ? ? 1.ResourceManager:分配和調度資源;啟動并監控ApplicationMaster; 監控NodeManager
? ? ? 2.ApplicatonMaster:為MR類型的程序申請資源,并分配給內部任務;負責數據的切分;監控任務的執行及容錯;
? ? ? 3.NodeManager:管理單個節點的資源;處理來自ResourceManager的命令;處理來自ApplicationMaster的命令
? ? ?MapReduce是一種編程模型,是一種編程方法,是抽象的理論;
MapReduce編程模型
? ? ? 輸入一個大文件,通過Split之后,將其分為多個分片;每個文件分片由單獨的機器去處理,這就是Map方法 ?;將各個機器計算的結果進行匯總并得到最終的結果,這就是Reduce方法;
查看全部 -
查看全部
-
HDFS讀流程
客戶端向NameNode發起讀數據請求;
NameNode找出距離最近的DataNode節點信息;
客戶端從DataNode分塊下載文件;
查看全部
舉報