大數據分析主要有哪些核心技術
1 回答

肥皂起泡泡
TA貢獻1829條經驗 獲得超6個贊
統計/分析
導入/預處理
挖掘
統計與分析主要利用分布式數據庫,或者分布式計算集群來對存儲于其內的海量數據進行普通的分析和分類匯總等,以滿足大多數常見的分析需求,在這方面,一些實時性需求會用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL的列式存儲Infobright等,而一些批處理,或者基于半結構化數據的需求可以使用Hadoop。統計與分析這部分的主要特點和挑戰是分析涉及的數據量大,其對系統資源,特別是I/O會有極大的占用。
將這些來自前端的數據導入到一個集中的大型分布式數據庫,或者分布式存儲集群,并且可以在導入基礎上做一些簡單的清洗和預處理工作。也有一些用戶會在導入時使用來自Twitter的Storm來對數據進行流式計算,來滿足部分業務的實時計算需求。導入與預處理過程的特點和挑戰主要是導入的數據量大,每秒鐘的導入量經常會達到百兆,甚至千兆級別。
比較典型算法有用于聚類的K-Means、用于統計學習的SVM和用于分類的Naive Bayes,主要使用的工具有HadoopMahout。
- 1 回答
- 0 關注
- 772 瀏覽
添加回答
舉報
0/150
提交
取消