-
shell命令操作HDFS:
???? 通過shell命令對HDFS進行操作:與linux操作文件類似
???? 通過python程序對HDFS進行操作
常用HDFS Shell命令:
????1.類linux系統:ls、cat、mkdir、rm、chmod、chown等
????2.HDFS文件交互:copyFromlocal、copyTplocal、get、put
????????
????
查看全部 -
兩個思考問題 :
??? 1.數據塊的大小設置為多少合適為什么?
???????hadoop數據塊的大小一般設置為128M,如果數據塊設置的太小,一般的文件也會被分割為多個數據塊,在訪問的時候需要查找多個數據塊的地址,這樣的效率很低,而且如果數據塊設置太小的話,會消耗更多的NameNode的內存;而如果數據塊設置過大的話,對于并行的支持不是太好,而且會涉及系統的其他問題,比如系統重啟時,需要從新加載數據,數據塊越大,耗費的時間越長。 ??
????2.NameNode有哪些容錯機制,如果NameNode掛掉了怎么辦?
?????? NameNode容錯機制,目前的hadoop2可以為之為HA(高可用)集群,集群里面有兩個NameNode的節點,一臺為主節點,一臺為從節點,兩者的數據時刻保持一致,當主節點出現問題時,從節點可以自動切換,用戶基本感知不到,這樣就避免了NameNode的單點問題。
HDFS寫流程:
????1.客戶端向NameNode發起寫數據
????2.分塊寫入DataNode節點,DataNode自動完成副本備份
????3.DataNode向NameNode匯報存儲完成,NameNode通知客戶端
HDFS讀流程:????????????
????1.客戶端向NameNode發起讀數據的請求
????2.NameNode找出最近的DataNode節點信息返回給客戶端
????3.客戶端從DataNode分塊下載文件
查看全部 -
Hadoop是什么:
????1.Hadoop是一個開源框架
????2.Hadoop是一個分布式計算的解決方案
????3.Hadoop=HDFS(分布式文件系統)+MapReduce(分布式計算)
Hadoop的核心:
????1.HDFS分布式文件系統:存儲是大數據技術的基礎
????2.MapReduce編程模型:分布式 計算是大數據應用的解決方案
HDFS概念:
????1.數據塊
????????????????數據塊是抽象塊而非整個文件作為存儲單元
????????????????默認大小為64MB,一般設置為128M,備份X3
????2.NameNode
??????????????????????? 管理文件系統的命名空間,存放文件元數據
????????????????????????維系著文件系統的所有文件和目錄,文件與數據塊的映射
????????????????????????記錄每個文件中各個塊所在數據節點的信息????
????3.DataNode
????????????????????????存儲并檢索數據塊
????????????????????????向NameNode更新所存儲塊的列表
HDFS優點:
???? 1.適合大文件存儲,支持TB,PB級的數據存儲,并有副本策略
???? 2.可以構建在廉價的機器上,并有一定的容錯和恢復機制
???? 3.支持流失數據訪問,一次寫入,多次讀取最高效
HDFS缺點:
???? 1.不適合大量小文件的存儲
???? 2.不適合并發的寫入,不支持文件隨機修改
???? 3.不支持隨機讀等低延時的訪問方式
兩個思考問題 :
??? 1.數據塊的大小設置為多少合適為什么?
????2.NameNode有哪些容錯機制,如果?????????? NameNode掛掉了怎么辦?
查看全部 -
10.30,第二遍學習開始查看全部
-
大數據是一個概念也是一門技術,是在以Hadoop為代表的大數據平臺框架上進行各種數據分析的技術。
大數據包括了以Hadoop和Spark為代表的基礎大數據框架。
還包括實時數據處理,離線數據處理;數據分析,數據挖掘和用機器算法進行預測分析等技術。
查看全部 -
HDFS寫流程
客戶端向NameNode發起寫數據請求。
分塊寫入DataNode節點,DataNode自動完成副本備份。
DataNode向NameNode匯報存儲完成,NameNode通知客戶端。
HDFS讀流程
????1.客戶端向NameNode發起讀數據請求。
????2.NameNode找出距離最近的DataNode節點信息。
????3.客戶端從DataNode分塊下載文件。
查看全部 -
Hadoop是什么?
Hadoop是一個開源的大數據框架。
hadoop是一個分布式計算的解決方案。
Hadoop = HDFS(分布式文件系統)+ MapReduce(分布式計算)。
Hadoop核心
????1.HDFS分布式文件系統:存儲是大數據技術的基礎。
????2.MapReduce編程模型:分布式計算是大數據應用的解決方案。
Hadoop基礎架構
????HDFS概念
????????1.數據塊
????????2.NameNode(主)
????????????1)管理文件系統的命名空間,存放文件元數據。
????????????2)維護著文件系統的所有文件和目錄,文件與數據塊的映射。
????????????3)記錄每個文件中各個塊所在數據節點的信息。
????????3.DataNode(從)
????????????1)存儲并檢索數據塊
????????????2)向NameNode更新所存儲塊的列表。
????HDFS的優點
????????1.適合大文件存儲,支持TB、PB級的數據存儲,并有副本策略。
????????2.可以構建在廉價的機器上,并且有一定的容錯和恢復機制。
????????3.支持流式數據訪問,一次寫入,多次讀取最高效。
????HDFS缺點
????????1.不適合大量小文件存儲。
????????2.不適合并發寫入,不支持文件隨機修改。
????????3.不支持隨機讀等低延時的訪問方式。
????? ?
????
查看全部 -
大數據是一個概念也是一門技術,是在以Hadoop為代表的大數據平臺框架上進行各種數據分析的技術。
大數據包括了以Hadoop和spark為代表的基礎大數據框架。
還包括實時數據處理,離線數據分析;數據分析,數據挖掘和用機器算法進行預測分析等技術。
查看全部 -
22222
查看全部 -
11111
查看全部 -
HDFS常用shell命令
查看全部 -
HDFS缺點
查看全部 -
DataNode
查看全部 -
namenode
查看全部 -
HDFS概念
查看全部
舉報