-
分布式存儲,主節點負責分發,告訴客戶端具體從節點信息,然后客戶端直接訪問從節點
查看全部 -
flom日志采集工具?查看全部
-
使用sqoop將hdfs中指定目錄的數據導出到mysql中
查看全部 -
具體操作步驟
查看全部 -
使用Sqoop將計算結果導出到Mysql
1、快速安裝Sqoop工具
2、數據導出功能開發,使用Sqoop將MapReduce計算的結果導出到MysQL中
查看全部 -
任務執行結果監控、預警
1、針對任務執行結果進行檢測,如果執行失敗,,則重試任務
2、腳本開發
查看全部 -
任務定時腳本封裝
1、把任務提交命令進行封裝,方便使用,便于定時任務調度
2、腳本開發
查看全部 -
自定義Writable代碼實現
1、由于原始數據中涉及到多個需要統計的字段,所以可以把這幾個字段統一記錄在一個自定義數據類型中,方便使用。
2、代碼實現
查看全部 -
數據統計代碼實現
1、對數據中的金幣數量,總觀看pv,粉絲數量,視頻總開播時長等指標進行統計
2、統計每天開播時長最長的前10名主播及對應的開播時長
3、代碼實現
查看全部 -
原始數據清洗代碼實現
1、由于原始數據是通過日志方式進行記錄的,在使用日志采集工具采集到HDFS之后,還需要對數據進行清洗過濾,丟棄缺失字段的數據,針對異常字段進行標準化處理
查看全部 -
需求分析
1、運營部門需要針對主播每天的開播數據進行分析,統計出來每天受歡迎程度比較高的一些主播,進而對這些主播分發更多流量,挖掘更大價值。
查看全部 -
shuffle作用:將相同分區的數據拉取到統一reduce節點進行處理
查看全部 -
多文件處理過程2
查看全部 -
多文件處理過程1
查看全部 -
需要開發者實現:
????????????Map階段的第二步驟
????????????Reduce階段的第三步驟
查看全部
舉報