-
mkdir examples //生成一個examples目錄 cd examples //進入examples文件路徑 mkdir word_count //生成word_count目錄 cd word_count //進入word_count目錄 mkdir input //用于存放提交的作業 mkdir word_count_class //用于存放編譯好的類 vim WordCount.java // 編寫好java程序后保存,資料下載里面有 javac -classpath /opt/hadoop-1.2.1/hadoop-core-1.2.1.jar:/opt/hadoop-1.2.1/lib/commons-cli-1.2.jar -d word_count_class/ WordCount.java //因為編譯WordCount.java過程需要引用hadoop封裝類,所以需要引用 jar -cvf wordcount.jar *.class //將當前目錄下的所有class都打包進wordcount.jar文件中 cd .. //返回上級word_count目錄 cd input vim file1 //編輯好file1 之后保存 ,file1里面為需要提交的作業 vim file2 // 類似 cd .. //返回到word_count目錄 hadoop fs -mkdir input_wordcount //創建一個hadoop 目錄,用于存放提交的作業 hadoop fs -put input/* input_wordcount //將本地的作業提交到input_wordcount目錄中 hadoop fs -ls input_wordcount //查看文件是否在該目錄下 hadoop jar word_count_class/wordcount.jar WordCount input_wordcount output_wordcount //提交jvm運行的jar,同時提交運行的主類,input..和out..分別用于保存提交的作業和運行結束的作業 .... .... .... 等待程序運行, ok
查看全部 -
hadoop 1.2.1
查看全部 -
安裝 OpenJDK
查看全部 -
MapReduce作業執行過程
查看全部 -
hadoop可以用來搭建大型數據倉庫,PB級數據的存儲、處理、分析、統計等業務。
優勢:1、高擴展 , 2、低成本,3、成熟的生態圈
高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。
高擴展性。Hadoop是在可用的計算機集簇間分配數據并完成計算任務的,這些集簇可以方便地擴展到數以千計的節點中。
高效性。Hadoop能夠在節點之間動態地移動數據,并保證各個節點的動態平衡,因此處理速度非???。
高容錯性。Hadoop能夠自動保存數據的多個副本,并且能夠自動將失敗的任務重新分配。
低成本。與一體機、商用數據倉庫以及QlikView、Yonghong?Z-Suite等數據集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。
查看全部 -
hadoop的組成
包括兩個核心組成:
????HDFS:分布式文件系統,存儲海量的數據
????MapReduce:并行處理框架,實現任務分解和調度
查看全部 -
HDFS? MapReduce? 開源工具(hive)
hive就是可以把你的sql語句轉化成一個hadoop任務執行(降低了使用hadoop的門檻)
hbase是存儲結構化數據的分布式數據庫(和傳統的關系型數據庫的區別是放棄事務特性,追求更高的擴展)(和HDFS的區別就是habse提供數據的隨機讀寫和實時訪問,實現對表數據的讀寫功能)
zookeeper是監控hadoop集群的狀態等
查看全部 -
hadoop的運維人才也是很需要的查看全部
-
hadoop的優勢是1.高擴展2.低成本3.成熟的生態圈查看全部
-
hadoop可以用來搭建大型數據倉庫查看全部
-
hadoop是一個開源的,分布式存儲+分布式計算平臺
查看全部 -
hadoop組成
查看全部 -
zookeaper類似管理員查看全部
-
HBSE實現了隨機實時讀寫功能查看全部
-
HIVE降低了hadoop使用門檻,使用SQL即可借助HIVE執行hadoop任務;查看全部
舉報