-
hadoop的組成
查看全部 -
hadoop的應用情況
查看全部 -
hadoop的功能和優勢:
Hadoop是什么:是一個開源的、分布式存儲和分布式計算平臺;
兩個核心組件:
????1.HDFS,分布式文件系統,存儲海量數據
????2.MapReduce,并行處理框架,實現任務分解和調度
Hadoopk可以做什么?
????搭建大型數據倉庫,PB級數據的存儲、處理、分析、統計等業務。
hadoop的優勢:
????1.高擴展,理論上無限擴展
????2.低成本
????3.成熟的生態圈
查看全部 -
google大數據技術:mapreduce,BigTable,GFS;
革命性的變革1:成本降低
變革2:軟件容錯,通過軟件保證可靠性
變革3:簡化了分布式并行計算,無需控制節點同步和數據交換
hadoop:模仿google大數據技術的開源實現
查看全部 -
JobTracker的作用:
作業調度
分配任務、監控任務執行進度
監控TaskTracker的狀態
TaskTracker的作用:
執行任務
mapreduce容錯機制:
1、重復執行,因為job問題,硬件問題,數據問題等等一起任務異常,導致? ? ? ?重試,默認重復4次失敗就會放棄執行
2、所有的map任務執行完成才繼續執行reduce任務,如果某一個節點計算特別慢,就新起一個節點和這個慢節點做相同的計算任務,只要其中一個完成即可
查看全部 -
MapReduce的原理:分而治之,一個大任務分成多個小的子任務(map),并行執行后,合并結果(reduce)
查看全部 -
hadoop存放文件命令 hadoop fs -put hadoop-env.sh /input<br> hadoop獲取文件命令 hadoop fs -get<br> hadoop刪除文件命令 hadoop fs -rm <br> hadoop創建目錄命令 hadoop fs -mkdir<br> hadoop 格式化操作 : hadoop namenode -formet hadoop查看存儲信息 hadoop dfsadmin -report<br>
查看全部 -
查看全部
-
hdfs讀取數據流程:
讀?。?/p>
1、客戶端想namenode請求
2、namenode返回元數據(數據包含哪些塊,以及這些塊的位置等等)
3、讀數據數據塊并組裝
查看全部 -
hdfs寫入:
1、客戶端拆分文件
2、客戶端請求namenode,namenode返回可以用的datanode
3、寫入數據塊到datanode
4、復制數據庫
5、更新元數據到namenode
查看全部 -
HDFS設計架構: ? ? ? ? ? ??
塊:文件以“塊”進行存儲,HDFS默認塊大小為64M ? ? ? ? ? ??
namenode:是管理節點,存放文件元數據,包括文件與數據塊的映射表、數據塊與數據節點的映射表 ? ? ? ? ? ??
datenode:工作節點,真正存儲數據塊 最終體系結構:由block、namenode、datanode、secondarynamenode、client組成
查看全部 -
HDFS 分布式文件系統
MapReduce 并行處理礦建
HIVE 將SQL語句轉化為Hadoop任務 ,降低使用門檻
HBASE 存儲結構化數據的分布式數據庫
(放棄了事務特性 最求更高的擴展)
zookeeper 監控Hadoop集群的狀態、管理配置、維護節點一次性
查看全部 -
Hadoop是開源的分布式存儲、分布式計算平臺
兩個核心組成:HDFS分布式文件系統,存儲海量的數據
MapReduce并行處理框架,實現任務分解和調度
作用:可以搭建大型數據倉庫,PB級數據的存儲、處理、分析、統計等業務
優勢:
1、高擴展
2、低成本
3、成熟的生態圈
查看全部 -
Google大數據技術的革命性的變化
1、成本低,能用PC機,就不用大型機和高端存儲
2、軟件容錯硬件故障視為常態,通過軟件保證可靠性。
3、簡化并行分布式計算,無須控制節點同步和數據交換
查看全部 -
1個job就是一個目標,完成目標需要分解成多個task
查看全部
舉報