亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
  • HDFS由一個NameNode和多個DataNode組成。

    NameNode作用:

    1、管理文件系統的命名空間,存放文件元數據。

    2、維護著文件系統的所有文件和目錄,文件與數據塊的映射。

    3、記錄每個文件中各個塊所在數據節點的信息。

    DataNode是文件系統的工作節點,作用:

    1、存儲并檢索數據塊。

    2、向NameNode更新所存儲塊的列表


    查看全部
  • Spark簡介:

    1、基于內存計算的大數據并行計算框架

    2、Spark是Map Reduce的替代方案,兼容HDFS,HIVE等數據源

    查看全部
    0 采集 收起 來源:Spark簡介

    2019-02-11

  • HBase簡介:

    RowKey:數據唯一標識,按字典排序,主鍵

    ColumnFamily:列族,多個列的集合,最多不要超過3個

    查看全部
    0 采集 收起 來源:HBase簡介

    2019-02-10

  • HBase簡介:

    高可靠,高性能,面向列,可伸縮,實時讀寫的分布式數據庫

    利用HDFS作為其文件存儲系統,支持MR程序讀取數據

    存儲非結構化和半結構化數據

    查看全部
    0 采集 收起 來源:HBase簡介

    2019-02-10

  • Map Reduce編程模型:

    ? ? 輸入一個大文件,通過Split之后,將其分為多個分片

    ? ? 每個文件分片由單獨的機器去處理,這就是Map方法

    ? ? 將各個機器計算的結果進行匯總并得到最終的結果,這就是Reduce方法

    查看全部
  • YARN是Hadoop2.0以后的資源管理器,負責整個集群的資源的管理和調度,所有的Map Reduce程序都需要通過它來進行調度。

    YARN概念:

    Resource Manager

    ? ? 分配和調度資源

    ? ? 啟動并監控Application Master

    ? ? 監控Node Manager

    Application Master

    ? ??為MR類型的程序申請資源,并分配給內部任務

    ? ? 負責數據的切分

    ? ? 監控任務的執行及容錯

    Node Manager

    ? ??管理單個節點的資源

    ? ? 處理來自Resource Manager的命令

    ? ? 處理來自Application Master的命令

    查看全部
  • Hadoop兩大核心:

    1、HDFS分布式文件系統:存儲是大數據技術的基礎

    2、Map Reduce編程模型:分布式計算是大數據應用的解決方案

    查看全部
  • HDHS讀流程:

    1、客戶端向Name Node發起讀數據請求

    2、Name Node找出距離最近的Data Node 節點信息

    3、客戶端從Data Node分塊下載文件

    查看全部
  • HDFS寫流程:

    1、客戶端向Name Node發起寫數據請求

    2、分塊寫入Data Node節點,Data Node自動完成副本備份

    3、Data Node向Name Node匯報存儲完成,Name Node通知客戶端

    查看全部
  • 所有文件的訪問都要通過Name Node來進行,所以Name Node至關重要

    Name Node容錯機制:

    1、第一種方法是把文件元數據寫入NFS,備份在另一臺機器上。備份操作是同步的原子的

    2、第二種方法是運行輔助的Name Node,不過這個Name Node不提供服務,它只是把操作日志Merge到Metadata中,但是如果主Name Node失效,總有一部分數據來不及Merge,會造成數據丟失。所以一般的做法是把NFS中備份的數據拷貝到這個Name Node,并作為主Name Node運行。

    查看全部
  • HDFS數據塊大小一般設置為64MB或者128MB。

    不能遠小于64MB:

    1、減少硬盤尋道時間

    2、減少Name Node內存消耗。Name Node記錄著Data Node中的數據塊信息,若數據塊太小,數據塊數量就會過多,需要維護的數據塊信息就會增多,從而消耗Name Node的內存

    也不能遠大于64MB:(主要原因從Map Reduce框架來說明)

    1、Map崩潰,系統需要重啟,重啟需要重新加載數據塊,數據塊越大,加載時間越長,系統恢復過程越長

    2、監管時間問題,主節點會在一個預設的時間間隔內監管其他節點的情況,每個節點會周期性的與主節點進行匯報通信,超過預設時間主節點會記錄該節點死亡,并將該節點的數據轉發給別的節點。數據塊越大,預設時間估算越不精準,容易對系統造成不必要的損失和資源浪費

    3、問題分解問題,同一個算法里,數據塊越大,時間復雜度越高

    4、約束Map輸出。在Map Reduce框架里,Map之后的數據要經過排序才執行Reduce操作,這通常涉及到歸并排序,歸并排序算法思想是“對小文件進行排序,然后將小文件歸并成大文件”

    查看全部
  • YARN,Hadoop2.0之后的資源管理器,

    ResourceManager, 分配和調度資源,啟動并監控ApplicationMaster,監控NodeManager

    ApplicationMaster

    NodeManager

    查看全部
  • 1.查看hdfs的幫助信息

    hdfs?dfs?-help

    2.查看hdfs文件系統根目錄下的所有目錄與文件

    hdfs?dfs?-ls?/

    3.將文件從本地復制到hdfs文件系統中

    hdfs?dfs?-copyFromLocal?/?+路徑

    4.將文件從hdfs文件系統中下載到本地虛擬機

    hdfs?dfs?-copyToLocal?/?+路徑


    查看全部
  • 常用HDFS Shell命令

    查看全部
  • RowKey:數據唯一標識,按字典排序

    Column Family:列族,多個列的集合。最多不要超過3個

    查看全部
    0 采集 收起 來源:HBase簡介

    2019-01-15

舉報

0/150
提交
取消
課程須知
有Linux命令使用基礎,有Python編程基礎
老師告訴你能學到什么?
大數據到底是個啥,大數據方向到底怎么樣 Hadoop基礎原理與兩個核心 Hadoop的基礎應用 Hadoop生態圈簡介 Hadoop生態圈常用開源項目介紹

微信掃碼,參與3人拼團

微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

友情提示:

您好,此課程屬于遷移課程,您已購買該課程,無需重復購買,感謝您對慕課網的支持!