-
HDFS特點
流式:一次寫入多次讀取
查看全部 -
HDFS中文件的寫操作
查看全部 -
HDFS中文件的讀操作
查看全部 -
Secondary NameNode
定期 同步元數據映像文件和修改日志,NameNode發生故障時,備胎轉正
查看全部 -
心跳檢測:DataNode定期向NameNode發送心跳消息
查看全部 -
數據管理策略
查看全部 -
DataNode是工作節點,存放數據塊
查看全部 -
分為NameNode和DataNode
NameNode是管理節點,存放文件元數據
1 文件與數據塊的映射表
2 數據塊與數據節點的映射表
查看全部 -
塊是文件存儲處理的邏輯單元
查看全部 -
mapreduce容錯機制:
1、重復執行,因為job問題,硬件問題,數據問題等等一起任務異常,導致? ? ? ?重試,默認重復4次失敗就會放棄執行
2、所有的map任務執行完成才繼續執行reduce任務,如果某一個節點計算特別慢,就新起一個節點和這個慢節點做相同的計算任務,只要其中一個完成即可
查看全部 -
mapreduce作業執行流程
查看全部 -
通常在部署的時候,tasktracker往往和datanode在同一組物理節點
jobtracker:1、作業調度? 2、分配任務,監控任務執行進度 3、監控? ? ? ? ? ? ? ? ? ? ? ? ? tasktracker的狀態
tasktracker:1、執行任務? 2、向jobtracker匯報任務狀態
查看全部 -
job拆分為多個task,task分為maptask和reducetask
客戶端提交任務(job)到jobtracker,jobtracker將任務放到候選隊列,在適當的時候挑選出job拆分為task運行
查看全部 -
mapreduce:一個大任務拆分成多個小任務(map),并行執行完成之后,再合并結果(reduce)
查看全部 -
1、數據大量冗余
2、流式數據訪問:一次寫入多次讀取,一旦寫入,無法修改
3、存儲大文件
4、吞吐量高,適合批量讀寫
5、不適合交互式應用,延時性無法滿足
6、不支持多用戶并發寫相同的文件
查看全部
舉報