-
hadoop課程內容
查看全部 -
Hadoop包括兩個重要的組成部分,HDFS 和 MapReduce,前者是Hadoop的文件系統,后者是并行計算框架。
一、HDFS的設計架構:
-塊(Block)
-NameNode
-DataNode
HDFS的文件被分成塊進行存儲,HDFS塊默認大小是64MB,塊是整個文件存儲處理的邏輯單元。
HDFS中有兩類節點NameNode和DataNode
namenode是管理節點,存放文件元數據,元數據包含兩個部分
文件與數據快的映射表
數據塊與數據節點的映射表
namenode是唯一的管理節點,里面存放大量元數據,客戶進行訪問請求,首先會到namenode查看元數據,返回的結果會知道這個文件放在哪些節點上面,然后從這些節點拿數據塊,然后組裝成想要的文件
DateNode是HDFS的工作節點,存放數據塊
查看全部 -
租用阿里云Linux主機
查看全部 -
Hadoop的組成
包括兩個核心組成
???? 1 HDFS:分布式文件系統,存儲海量的數據
?????2MapReduce:并行處理框架,實現任務分解和調度
查看全部 -
HDFS? MapReduce? 開源工具(hive)
hive就是可以把你的sql語句轉化成一個hadoop任務執行(降低了使用hadoop的門檻)
hbase是存儲結構化數據的分布式數據庫(和傳統的關系型數據庫的區別是放棄事務特性,追求更高的擴展)(和HDFS的區別就是habse提供數據的隨機讀寫和實時訪問,實現對表數據的讀寫功能)
zookeeper是監控hadoop集群的狀態,管理節點間的配置,維護數據的一致性。
查看全部 -
搭建大型數據倉庫,PB級數據的存儲、處理、分析、統計等業務
搜索引擎、商業智能、日志分析、數據挖掘
優勢:1、高擴展 , 2、低成本,3、成熟的生態圈
查看全部 -
下載軟件地址: wget https://archive.apache.org/dist/hadoop/common/hadoop-1.2.1/hadoop-1.2.1.tar.gz
配置hadoop文件:
1、hadoop-env.sh
配置java 環境變量的地址
2、 core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/hadoop</value>
</property>
</configuration>
<property>
<name>dfs.name.dir</name>
<value>/hadoop/name</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://imooc:9000</value>
</property>
查看全部 -
馬住查看全部
-
配置文件//
查看全部 -
4個配置文件
查看全部 -
MapReduce?容錯機制
重復執行,一次任務失敗,會進行重試,4次
推測執行,單個任務執行慢時,推測其可能出現故障,再另起一個同樣的任務,并行執行,哪個先執行完使用哪個
查看全部 -
MapReduce?作業執行過程
查看全部 -
JobTracker?功能職責
查看全部 -
MapReduce?流程原理
查看全部 -
Hadoop?數據寫入流程
查看全部
舉報