-
HDFS寫流程
客戶端向NameNode發起寫數據請求
分塊寫入DataNode節點,DataNode自動完成副本備份
DataNode向NameNode匯報存儲完成,NameNode通知客戶端
HDFS讀流程
客戶端向NameNode發起讀數據請求
NameNode找出距離最近的DataNode節點信息
客戶端從DataNode分塊下載文件
查看全部 -
HDFS分布式文件系統:存儲是大數據技術的基礎
HDFS總結
普通的成百上千的機器
按TB甚至PB為單位的大量的數據
簡單便捷的文件獲取
HDFS概念
數據塊:數據塊是抽象塊而非整個文件作為存儲單元,默認大小為64M,一般設置為128M,備份X3
NameNode:管理文件系統的命名空間,存放文件元數據,維護著文件系統的所有文件和目錄,文件與數據塊的映射,記錄每個文件中各個快所在數據節點的信息
DataNode:存儲并檢索數據塊,向NameNode更新所存儲塊的列表
HDFS優點:
適合大文件存儲,支持TB、PB級的數據存儲,并有副本策略
可以構建在廉價的機器上,并有一定的容錯和恢復機制
支持流式數據訪問,一次寫入,多次讀取最高效
HDFS缺點:
不適合大量小文件存儲
不適合并發寫入,不支持文件隨機修改
不支持隨機讀等低延時的訪問方式
查看全部 -
兩個思考問題 :
????1.數據塊的大小設置為多少合適為什么?
???????hadoop數據塊的大小一般設置為128M,如果數據塊設置的太小,一般的文件也會被分割為多個數據塊,在訪問的時候需要查找多個數據塊的地址,這樣的效率很低,而且如果數據塊設置太小的話,會消耗更多的NameNode的內存;而如果數據塊設置過大的話,對于并行的支持不是太好,而且會涉及系統的其他問題,比如系統重啟時,需要重新加載數據,數據塊越大,耗費的時間越長。???
????2.NameNode有哪些容錯機制,如果NameNode掛掉了怎么辦?
?????? NameNode容錯機制,目前的hadoop2可以為之為HA(高可用)集群,集群里面有兩個NameNode的節點,一臺為主節點,一臺為從節點(備用節點),兩者的數據時刻保持一致,當主節點出現問題時,備用節點可以自動切換,用戶基本感知不到,這樣就避免了NameNode的單點問題。
HDFS寫流程:
? ? 寫流程:
1.客戶端向NameNode發起寫數據????2.分塊寫入DataNode節點,DataNode自動完成副本備份
????3.DataNode向NameNode匯報存儲完成,NameNode通知客戶端
? HDFS讀流程:
1.客戶端向NameNode發起讀數據的請求;? ?
?2.NameNode找出距離最近的DataNode節點信息返回給客戶端 ;
?3.客戶端從DataNode上面分塊的下載文件;查看全部 -
Hadoop 是一個開源的大數據框架;也是是一個分布式計算的解決方案;
那么Hadoop+HDFS(分布式文件系統)+MapReduce(分布式計算);
Hadoop 核心:HDFS 分布式文件系統:存儲是大數據計算的基礎,沒有這個做不了大數據;
MapReduce(分布式計算):編程模型,分布式計算是大數據應用的解決方案;
HDFS總結:有很多特性支持大數據的存儲,為了大量數據橫跨成百上千的機器,用數據跟本地調用一樣簡單,HDFS自動搞定;
1、普通的成百上千的機器;
2、按TB甚至PB為單位的大量數據;
3、簡單便捷的文件獲?。?br />概念:1、數據塊;數據塊是抽象概念的塊而非整個文件作為存儲單元;
塊默認大小64M,一般設置128M,(副本策略)備份X3;比如存10M文件,那么這個文件獨占一個文件,如果300M文件,那么會占3份;這樣會簡化存儲數據的設計,提升數據的容錯能力和擴容性;;
2、NameNode;主 ,管理文件系統的命名空間和存放文件元數據;維護著文件系統的所有文件和目錄,文件和數據庫的映射;
記錄每個文件各個塊所在數據節點的信息;
如果namenode掛了咋辦?百度
3、DataNode? 從的關系,一般一個namenode主,多個從;
datanode ,存儲并檢索數據塊,向namenode更新所存塊的列表;
HDFS優點:
1、適合大文件的存儲,支持TB、PB級的數據存儲,并有副本策略;
2、可以構建在廉價的機器上,并有一定的容錯和恢復機制;
3、支持流式數據訪問,一次寫入,多次讀取取最高效;
缺點:
1、不適合大量小文件存儲;
2、不適合并發寫入,不支持文件隨機修改,只能后續添加apd;
3、不支持隨機讀等低時延的訪問方式;
問題;1、數據塊的大小設置多少合適?為啥?
2、namenode有哪些容錯機制,他如果掛掉咋辦?查看全部 -
HBase簡介
查看全部 -
Hadoop生態
查看全部 -
Hadoop總結
查看全部 -
Hadoop
查看全部 -
Hadoop的基礎架構
查看全部 -
Hadoop基礎架構
查看全部 -
HDFS寫流程和讀流程
查看全部 -
Hadoop基礎與演練
大數據是一個概念也是一門技術,是在以Hadoop為代表的大數據平臺框架上進行各種數據分析的技術。
大數據包括了以Hadoop和Spark為代表的基礎大數據框架
還包括實時數據處理,離線數據處理;數據分析,數據挖掘和用機器算法進行預測分析等技術
大數據的前景
PC時代->移動互聯網->物聯網
PC->云計算->大數據
大數據肯定是一個好的方向,大數據的相關人才還是稀缺的,現在學大數據還不晚,堅持地走下去就行了!
查看全部 -
mapreduce編程模型:
????
yarn 資源管理器:
????resourcemanager????applicationmaster
????nodemanager
查看全部 -
hadoop有主節點和一套備用節點,主節點掛了就直接用備用節點。解決namenode的單點問題。
hdfs 寫流程:
hdfs讀流程:
查看全部 -
hdfs的存儲單元為數據塊。
一個hdfs由1個Namenode和多個datanode組成。
namenode:
datanode:存儲檢索數據塊,向namenode更新數據列表。
查看全部 -
———————————————————
查看全部 -
hdfs總結
查看全部 -
hadoop核心
查看全部 -
什么是大數據
查看全部 -
問題回顧:
數據塊的大小設置為多少比較合適?
一般設置為128MB,設置過小,訪問時數據時效率不高,對NameNade的內存消耗嚴重。數據塊設置過大,降低對并行的支持
會使數據重啟的時間延長。
如果NameNode掛掉了怎么辦?
配用高可用集群ha存在兩個NameNode節點,一個處于active請求狀態,另一個處于standby備份狀態,兩者數據時刻保持一致
查看全部 -
hadoop是什么?
1.開源的大數據框架
2.分布式計算的解決方案
3.hadoop=HDFS(分布式文件系統)+MapReduce(分布式計算)
hadoop的核心?
1.HDFS分布式文件系統:存儲大數據技術的基礎
2.MapReduce編程模型:分布式計算提供處理大數據應用的解決方
HDFS概念
1.數據塊
?????抽象的單個文件作為單元存儲單元,默認大小為64MB,一般設置為128M,備份X3
2.NameNode
????????????????管理文件系統的命名空間,存放文件元數據
????????????????維護文件系統的所有文件和目錄,文件于數據塊的映射
????????????????記錄每個文件中各個塊所在數據節點的信息
? ? ? ? ?3.DataNode
????????????????? ?存儲并檢索數據塊
????????????????????向NameNode發送并更新所存儲的列表
HDFS的優缺點
1.優點
適合大文件,可以構建在廉價的機器上,并有一定的容錯和恢復機制,支持流式數據訪問,一次寫入,多次讀取最高效
? ? ? ? ?2.缺點
? ? ? ? 不適合小文件存儲,不適合并發寫入,不支持隨機修改和隨機讀等低延時的訪問方式
問題1:如果NameNode掛掉了怎么辦?
將SecondaryNameNode中數據拷貝到namenode存儲數據的目錄
查看全部 -
大數據的定義
大數據是一個概念和一門技術,以hadoop 為代表的大數據平臺框架上進行各種數據分析的技術 包括以hadoop,spark為代表的基礎大數據框架還包括實時處理數據,離線處理數據;數據分析,數據挖掘和用機器算法進行預測分析等技術
查看全部 -
MapReduce 原理
查看全部 -
HDFS 的讀流程
查看全部 -
HDFS 的寫流程
(1) 首先客戶端向NameNode發起寫數據請求,NameNode保存的各個DataNode狀態,檢索的DataNode1、2、3有空間可以存儲
(2)客戶端將分塊兒數據寫入DataNode,DataNode完成自動備份
(3)DataNode向NameNode匯報存儲完成,NameNode通知客戶端
查看全部
舉報