1 回答

TA貢獻1777條經驗 獲得超10個贊
本人為大數據技術員,可以分享一些心得體驗給題主:
其實題主需要搞清楚以下幾個問題,搞清楚了,其實問題的答案也就有了:
1、是從個人學習成長的角度想搭建平臺自學?還是現在的公司需要大數據技術進行分析?——如果是從個人學習成長的角度,建議直接按照Hadoop或者Spark的官網教程安裝即可,建議看官網(英文),在大數據技術領域,英語的掌握是非常重要的,因為涉及到組件選型、日后的安裝、部署、運維,所有的任務運行信息、報錯信息都是英文的,包括遇到問題的解答,所以還是非常重要的。如果是公司需要進行大數據分析,那么還要研究以下幾個問題:為什么需要搭建大數據分析平臺?要解決什么業務問題?需要什么樣的分析?數據量有多少?是否有實時分析的需求?是否有BI報表的需求?——這里舉一個典型的場景:公司之前采用Oracle或MySQL搭建的業務數據庫,而且有簡單的數據分析,或者可能采購了BI系統,就是直接用業務系統數據庫進行支持的,現在隨著數據量越來越大,那么就需要采用大數據技術進行擴容。
搞清楚需求之后,按照以下的步驟進行:
1、整體方案設計;整體方案設計時需要考慮的因素:數據量有多少:幾百GB?幾十TB?數據存儲在哪里:存儲在MySQL中?Oracle中?或其他數據庫中?數據如何從現在的存儲系統進入到大數據平臺中?如何將結果數據寫出到其他存儲系統中?分析主題是什么:只有幾個簡單指標?還是說有很多統計指標,需要專門的人員去梳理,分組,并進行產品設計;是否需要搭建整體數倉?是否需要BI報表:業務人員有無操作BI的能力,或團隊組成比較簡單,不需要前后端人員投入,使用BI比較方便;是否需要實時計算?
2、組件選型;架構設計完成后就需要組件選型了,這時候最好是比較資深的架構師參與設計,選型包括:離線計算引擎:Hadoop、Spark、Tez……實時計算引擎:Storm、Flink、Samza、Spark Streaming……BI軟件:Tableau、QlikView、帆軟……
3、安裝部署;選型完成后,就可以進行安裝部署了,這部分其實是最簡單的,直接按照每個組件的部署要求安裝即可。
4、另一種選擇:采用商用軟件如果是企業需要搭建大數據平臺,那么還有一種選擇是直接采用商用的數據平臺。市面上有很多成熟的商用大數據平臺,Cloudera、星環、華為、亞信等等,都有對應的產品線,業內數據大咖袋鼠云就有一款非常優秀的大數據平臺產品:數棧。主要有以下幾個特點:
1.一站式。一站式數據開發產品體系,滿足企業建設數據中臺過程中的多樣復雜需求。
2.兼容性強。支持對接多種計算引擎,使更多企業“半路上車”。
3.開箱即用?;赪eb的圖形化操作界面,開箱即用,快速上手。
4.性價比高。滿足中小企業數據中臺建設需求,降低企業投入成本。
- 1 回答
- 0 關注
- 795 瀏覽
添加回答
舉報