影響MapReduce的主要因素有以下幾個:
硬件(或者資源)因素,如CPU時鐘、磁盤I/O、網絡帶寬和內存大小。
底層存儲系統。
輸入數據、分揀(shuffle)數據以及輸出數據的大小,這與作業的運行時間緊密相關。
作業算法(或者程序),如map、reduce、partition、combine和compress。有些算法很難在MapReduce中概念化,或者在MapReduce中效率可能會降低。
硬件(或者資源)因素,如CPU時鐘、磁盤I/O、網絡帶寬和內存大小。
底層存儲系統。
輸入數據、分揀(shuffle)數據以及輸出數據的大小,這與作業的運行時間緊密相關。
作業算法(或者程序),如map、reduce、partition、combine和compress。有些算法很難在MapReduce中概念化,或者在MapReduce中效率可能會降低。
2018-07-09
問題 namenode掛掉怎么辦?
重啟namenode1。集群短暫正常之后兩個namenode都掛掉,日志顯示內存溢出。進一步重啟整個集群,短暫正常后namenode再次掛掉。
此時,修改hadoop_heapsize參數為4G,并調小隊列3所允許的最大隊列數為4,重新修改hadoop_heapsize參數,重啟集群正常
重啟namenode1。集群短暫正常之后兩個namenode都掛掉,日志顯示內存溢出。進一步重啟整個集群,短暫正常后namenode再次掛掉。
此時,修改hadoop_heapsize參數為4G,并調小隊列3所允許的最大隊列數為4,重新修改hadoop_heapsize參數,重啟集群正常
2018-07-08
感謝老師分享?。?!
Apache Spark 是一款開源的、基于內存的、專為大規模數據處理而設計的分布式計算框架,可作為 MapReduce 的替代方案,同時也很好地兼容其他大數據組件。
Spark 僅僅是一個分布式計算框架,專注于數據的計算,類似 MapReduce、Storm、Flink。Spark 不包含存儲、調度等功能,而數據的存儲在生產環境中往往還是由 Hadoop HDFS 承擔,調度也是采用“Spark on YARN”的方式。
Spark 抽象出一個非常重要的概念:RDD(Resilient Distributed Datasets,彈性分布式數據集)
Apache Spark 是一款開源的、基于內存的、專為大規模數據處理而設計的分布式計算框架,可作為 MapReduce 的替代方案,同時也很好地兼容其他大數據組件。
Spark 僅僅是一個分布式計算框架,專注于數據的計算,類似 MapReduce、Storm、Flink。Spark 不包含存儲、調度等功能,而數據的存儲在生產環境中往往還是由 Hadoop HDFS 承擔,調度也是采用“Spark on YARN”的方式。
Spark 抽象出一個非常重要的概念:RDD(Resilient Distributed Datasets,彈性分布式數據集)
2018-06-11
HBase(Hadoop Database)是一個分布式 NoSQL 列存儲數據庫。HBase 利用 HDFS 作為其文件存儲系統,利用 Hadoop MapReduce 處理海量數據,還可以利用 Zookeeper 作為協同服務。HBase 源自 Google 在 2006 年發表的 BigTable 論文,它整體的架構與 BigTable 很類似。
2018-06-11
Hadoop 生態圈囊括了大數據處理的方方面面,其中的大多數組件都是開源免費的。組件都有自己的適用場景,如:HBase 做查詢,Hive 做 SQL 離線批處理,Flume 做日志收集,Sqoop 做數據交換等。
學習目標:學習Hadoop生態圈的組成、核心組件,以及每個組件的應用場景,它們的優缺點和特性
建議學習路線:Hadoop 體系架構與環境搭建 -> HDFS -> YARN -> MapReduce -> Hive -> HBase -> Sqoop -> Pig -> Flume -> HUE -> ZooKeeper(HA) -> Storm ----> Spark
學習目標:學習Hadoop生態圈的組成、核心組件,以及每個組件的應用場景,它們的優缺點和特性
建議學習路線:Hadoop 體系架構與環境搭建 -> HDFS -> YARN -> MapReduce -> Hive -> HBase -> Sqoop -> Pig -> Flume -> HUE -> ZooKeeper(HA) -> Storm ----> Spark
2018-06-11
運用 HDFS shell 的方式對文件進行操作,HDFS shell 類似 Linux shell。
hadoop fs [generic options]與hdfs dfs [generic options]是一個命令
hadoop fs [generic options]與hdfs dfs [generic options]是一個命令
2018-06-11
文件寫入:
1. Client向NameNode發起文件寫入的請求
2. NameNode根據文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息
3. Client將文件劃分為多個Block,根據DataNode的地址信息,按順序寫入到每一個DataNode塊中。
文件讀取:
1. Client向NameNode發起文件讀取的請求。
2. NameNode返回文件存儲的DataNode的信息。
3. Client讀取文件信息。
1. Client向NameNode發起文件寫入的請求
2. NameNode根據文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息
3. Client將文件劃分為多個Block,根據DataNode的地址信息,按順序寫入到每一個DataNode塊中。
文件讀取:
1. Client向NameNode發起文件讀取的請求。
2. NameNode返回文件存儲的DataNode的信息。
3. Client讀取文件信息。
2018-06-11
【百度百科定義】:大數據(big data),指無法在一定時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
【通俗定義】:大數據是一個概念也是一門技術,它是以 Hadoop 和 Spark 為代表的大型軟件平臺,我們可以在這個軟件平臺上進行大規模數據的分析和處理。數據處理可分為兩類:離線批處理(Hadoop 為代表)、實時流處理(Spark 為代表)。
【通俗定義】:大數據是一個概念也是一門技術,它是以 Hadoop 和 Spark 為代表的大型軟件平臺,我們可以在這個軟件平臺上進行大規模數據的分析和處理。數據處理可分為兩類:離線批處理(Hadoop 為代表)、實時流處理(Spark 為代表)。
2018-06-11
已采納回答 / qq_兵刃_04412779
塊的大小設置原則:最小化尋址開小。?塊越大尋址時間越短,?傳輸一個由多個塊的組成的文件取決于磁盤傳輸速率。如尋址時間約為10ms,傳輸速率為100MB/S,為了使尋址時間僅占傳輸時間的1%,塊的大小設置約為100MB,默認大小是64MB,現在在實際身纏中都是128MB了,隨著新一代磁盤去東區傳輸速率的提升,塊的大小將會被設置的更大。注意:塊的大小太大的話,一個map任務處理一個塊,那任務數就變少了,作業運行速度也就變慢了。
2018-06-02