亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
  • shell命令操作HDFS:

    ???? 通過shell命令對HDFS進行操作:與linux操作文件類似

    ???? 通過python程序對HDFS進行操作

    常用HDFS Shell命令:

    ????1.類linux系統:ls、cat、mkdir、rm、chmod、chown等

    ????2.HDFS文件交互:copyFromlocal、copyTplocal、get、put


    ????????

    ????

    查看全部
  • 兩個思考問題 :

    ??? 1.數據塊的大小設置為多少合適為什么?

    ???????hadoop數據塊的大小一般設置為128M,如果數據塊設置的太小,一般的文件也會被分割為多個數據塊,在訪問的時候需要查找多個數據塊的地址,這樣的效率很低,而且如果數據塊設置太小的話,會消耗更多的NameNode的內存;而如果數據塊設置過大的話,對于并行的支持不是太好,而且會涉及系統的其他問題,比如系統重啟時,需要從新加載數據,數據塊越大,耗費的時間越長。 ??

    ????2.NameNode有哪些容錯機制,如果NameNode掛掉了怎么辦?

    ?????? NameNode容錯機制,目前的hadoop2可以為之為HA(高可用)集群,集群里面有兩個NameNode的節點,一臺為主節點,一臺為從節點,兩者的數據時刻保持一致,當主節點出現問題時,從節點可以自動切換,用戶基本感知不到,這樣就避免了NameNode的單點問題。

    HDFS寫流程:

    https://img1.sycdn.imooc.com//5bd804060001e45504500298.jpg

    ????1.客戶端向NameNode發起寫數據

    ????2.分塊寫入DataNode節點,DataNode自動完成副本備份

    ????3.DataNode向NameNode匯報存儲完成,NameNode通知客戶端

    HDFS讀流程:????????????

    https://img1.sycdn.imooc.com//5bd804980001298c05210344.jpg

    ????1.客戶端向NameNode發起讀數據的請求

    ????2.NameNode找出最近的DataNode節點信息返回給客戶端

    ????3.客戶端從DataNode分塊下載文件

    查看全部
  • Hadoop是什么:

    ????1.Hadoop是一個開源框架

    ????2.Hadoop是一個分布式計算的解決方案

    ????3.Hadoop=HDFS(分布式文件系統)+MapReduce(分布式計算)

    Hadoop的核心:

    ????1.HDFS分布式文件系統:存儲是大數據技術的基礎

    ????2.MapReduce編程模型:分布式 計算是大數據應用的解決方案

    HDFS概念:

    ????1.數據塊

    ????????????????數據塊是抽象塊而非整個文件作為存儲單元

    ????????????????默認大小為64MB,一般設置為128M,備份X3

    ????2.NameNode

    ??????????????????????? 管理文件系統的命名空間,存放文件元數據

    ????????????????????????維系著文件系統的所有文件和目錄,文件與數據塊的映射

    ????????????????????????記錄每個文件中各個塊所在數據節點的信息????

    ????3.DataNode

    ????????????????????????存儲并檢索數據塊

    ????????????????????????向NameNode更新所存儲塊的列表

    HDFS優點:

    ???? 1.適合大文件存儲,支持TB,PB級的數據存儲,并有副本策略

    ???? 2.可以構建在廉價的機器上,并有一定的容錯和恢復機制

    ???? 3.支持流失數據訪問,一次寫入,多次讀取最高效

    HDFS缺點:

    ???? 1.不適合大量小文件的存儲

    ???? 2.不適合并發的寫入,不支持文件隨機修改

    ???? 3.不支持隨機讀等低延時的訪問方式

    兩個思考問題 :

    ??? 1.數據塊的大小設置為多少合適為什么?

    ????2.NameNode有哪些容錯機制,如果?????????? NameNode掛掉了怎么辦?



    查看全部
  • 10.30,第二遍學習開始
    查看全部
    0 采集 收起 來源:Spark簡介

    2018-10-30

    1. 大數據是一個概念也是一門技術,是在以Hadoop為代表的大數據平臺框架上進行各種數據分析的技術。

    2. 大數據包括了以Hadoop和Spark為代表的基礎大數據框架。

    3. 還包括實時數據處理,離線數據處理;數據分析,數據挖掘和用機器算法進行預測分析等技術。

    查看全部
  • HDFS寫流程

    1. 客戶端向NameNode發起寫數據請求。

    2. 分塊寫入DataNode節點,DataNode自動完成副本備份。

    3. DataNode向NameNode匯報存儲完成,NameNode通知客戶端。

    HDFS讀流程

    ????1.客戶端向NameNode發起讀數據請求。

    ????2.NameNode找出距離最近的DataNode節點信息。

    ????3.客戶端從DataNode分塊下載文件。

    查看全部
  • Hadoop是什么?

    1. Hadoop是一個開源的大數據框架。

    2. hadoop是一個分布式計算的解決方案。

    3. Hadoop = HDFS(分布式文件系統)+ MapReduce(分布式計算)。

    Hadoop核心

    ????1.HDFS分布式文件系統:存儲是大數據技術的基礎。

    ????2.MapReduce編程模型:分布式計算是大數據應用的解決方案。

    Hadoop基礎架構

    ????HDFS概念

    ????????1.數據塊

    ????????2.NameNode(主)

    ????????????1)管理文件系統的命名空間,存放文件元數據。

    ????????????2)維護著文件系統的所有文件和目錄,文件與數據塊的映射。

    ????????????3)記錄每個文件中各個塊所在數據節點的信息。

    ????????3.DataNode(從)

    ????????????1)存儲并檢索數據塊

    ????????????2)向NameNode更新所存儲塊的列表。

    ????HDFS的優點

    ????????1.適合大文件存儲,支持TB、PB級的數據存儲,并有副本策略。

    ????????2.可以構建在廉價的機器上,并且有一定的容錯和恢復機制。

    ????????3.支持流式數據訪問,一次寫入,多次讀取最高效。

    ????HDFS缺點

    ????????1.不適合大量小文件存儲。

    ????????2.不適合并發寫入,不支持文件隨機修改。

    ????????3.不支持隨機讀等低延時的訪問方式。

    ????? ?


    ????

    查看全部
    1. 大數據是一個概念也是一門技術,是在以Hadoop為代表的大數據平臺框架上進行各種數據分析的技術。

    2. 大數據包括了以Hadoop和spark為代表的基礎大數據框架。

    3. 還包括實時數據處理,離線數據分析;數據分析,數據挖掘和用機器算法進行預測分析等技術。

    查看全部
  • 22222

    查看全部
    0 采集 收起 來源:Spark簡介

    2018-09-16

  • 11111

    查看全部
    0 采集 收起 來源:HBase簡介

    2018-09-16

  • HDFS常用shell命令

    查看全部
  • HDFS缺點

    查看全部
  • DataNode

    查看全部
  • namenode

    查看全部
  • HDFS概念

    查看全部

舉報

0/150
提交
取消
課程須知
有Linux命令使用基礎,有Python編程基礎
老師告訴你能學到什么?
大數據到底是個啥,大數據方向到底怎么樣 Hadoop基礎原理與兩個核心 Hadoop的基礎應用 Hadoop生態圈簡介 Hadoop生態圈常用開源項目介紹

微信掃碼,參與3人拼團

微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

友情提示:

您好,此課程屬于遷移課程,您已購買該課程,無需重復購買,感謝您對慕課網的支持!