-
常用HDFS Shell命令
(1)查看hdfs的幫助信息
hdfs?dfs?-help
(2)查看hdfs文件系統根目錄下的所有目錄與文件
hdfs?dfs?-ls?/
(3)將文件從本地復制到hdfs文件系統中
hdfs?dfs?-copyFromLocal?./README.txt?/test/
(4)查看hdfs文件系統中文件的內容
hdfs?dfs?-cat?/text/README.txt
(5)將文件從hdfs文件系統中復制到本地
hdfs?dfs?-copyToLocal?/test/README.txt?./README2.txt
(6)改變hdfs文件系統中文件的權限
hdfs?dfs?-chmod?777?/test/README.txt
查看全部 -
常用HDFS Shell命令
copyFromLocal:將文件從本地拷貝進HDFS文件系統;
copyToLocal:將文件從HDFS文件系統拷貝進本地;
get:下載文件;
put:上傳文件
查看全部 -
HDFS讀流程
通過客戶端Client讀取數據Data的流程,DataNode3存放數據塊1與2的備份:
(1)Client向NameNode發起讀取請求;
(2)NameNode查找自身存儲的關于Data的存儲信息,并反饋給Client存儲Data各個節點的位置;
(3)Client根據反饋信息,從DataNode1讀取數據塊1,從DataNode2讀取數據塊2;
(4)假設從DataNode2讀取數據塊2時發生異常,則會從DataNode3取數據塊2
查看全部 -
?HDFS寫流程
通過客戶端Client寫入數據Data的流程:
(1)Client向NameNode發起寫入請求;
(2)NameNode查找自身存儲的關于三個DataNode的信息,并反饋給Client;
(3)Client根據反饋信息,將Data分為兩個數據塊1和2;
(4)Client根據反饋信息將數據塊1傳給DataNode1,進行保存;
(5)備份x3,DataNode1將數據塊1傳給DataNode2,DataNode2再傳給DataNode3;
(6)DataNode1、2、3存儲完數據塊1以后,將保存的節點信息反饋給NameNode進行保存,NameNode同時更新存儲節點信息的列表;
(7)NameNode告知Client數據塊1存儲完成,開始存儲數據塊2,過程同數據塊1一致
查看全部 -
HDFS的優點
(1)適合大文件存儲,支持TB、PB級的數據存儲,并有副本策略;
(2)可以構建在廉價的機器上,并有一定的容錯和恢復機制;
注:Hadoop2的容錯機制,Hadoop可以配置成HA(高可用集群),包含兩個NameNode節點,其中一個處于“active”狀態(主節點),另一個處于“standby”狀態(備用節點),兩者數據保持實時一致,當主節點出現問題時,就會自動切換到備用節點
(3)支持流式數據訪問,一次寫入,多次讀取最高效
HDFS的缺點
(1)不適合大量小文件存儲;
(2)不適合并發寫入,不支持文件隨機修改;
(3)不支持隨機讀等低延時的訪問方式
查看全部 -
HDFS的基本概念
(1)數據塊
????????數據塊是抽象塊而非整個文件作為存儲單元,默認大小為64MB,一般設置為128MB,備份x3 。比如說,設置數據塊大小為100MB,數據為300MB,則會分3個數據塊來存儲
注:關于數據塊大小的選擇。若數據塊選擇的過小,較大的文件也有可能會被分割,由于NameNode要記錄所有文件所在數據節點的信息,將會加大NameNode的內存壓力;若數據塊選擇的過大,系統重啟時需要重新加載數據,數據塊越大恢復的時間越長
HDFS是由一個NameNode(主)和多個DataNode(從)組成的
(2)NameNode
????? ? 管理文件系統的命名空間,存放文件元數據;維護者文件系統所有文件和目錄,文件與數據塊的映射;記錄每個文件中各個塊所在數據節點的信息。上述信息在DataNode啟動時會自動發送給NameNode
(3)DataNode
????????負責存儲并檢索數據塊;向NameNode更新所存儲塊的列表
查看全部 -
HDFS的特點
(1)普通的成百上千的機器;
(2)按TB甚至PB為單位的大量的數據;
(3)簡單便捷的文件獲取
查看全部 -
Hadoop核心
(1)HDFS(分布式文件系統):存儲是大數據技術的基礎;
(2)MapReduce(編程模型):分布式計算是大數據應用的解決方案
查看全部 -
Hadoop
Hadoop是一個開源的大數據框架;
Hadoop是一個分布式計算的解決方案;
Hadoop=HDFS(分布式文件系統)+ MapReduce(分布式計算)?
查看全部 -
大數據的定義
1. 大數據是一門以Hadoop為代表的開源大數據平臺框架上進行各種數據分析的技術。
2. 具體說,大數據平臺基礎框架包括了Hadoop和Spark為代表的基礎大數據框架。
3. 具體說,各種數據分析技術包括實事數據處理技術、離線處理技術;數據分析、數據挖掘和用機器算法進行預測分析等技術。
查看全部 -
HDFS缺點
查看全部 -
HDFS優點
查看全部 -
按數據塊存儲,默認大小64M,一般設置為128M。備份X3
查看全部 -
hadoop生態圈
查看全部 -
http://hdfs3.readthedocs.io/en/latest/api.html
查看全部
舉報