1 回答

TA貢獻1873條經驗 獲得超9個贊
數據挖掘
1 數學預備知識
概率論:支撐整個數據挖掘算法和機器學習算法的數學基礎,要熟悉常見的一些概率分布。
矩陣論:線性代數中對數據挖掘最有用的部分,還有一些線性空間相關知識也很重要。
信息論:將信息和數學緊密連接在一起并完美的表達的橋梁,需要掌握信息熵、信息增益等相關知識。
統計學:數據分析最早的依賴基礎,通常和概率論一起應用,現在的機器學習和數據挖掘很多都是基于統計的,常見的均值、方差、協方差等都要熟練掌握。
2 編程基礎
數據挖掘需要一定的編程基礎,因為要實現模型以及數據的處理很多工作都是需要程序來進行的,數據挖掘常用的編程語言如下:
SQL:數據庫的熟練使用是任何數據挖掘人員必不可少的技能。
C++ :有很多的標準模板庫以及機器學習模型庫進行調用可以方便編程實現。
Python:對字符串處理有極大的優勢,是解釋型語言,實現簡單,而且有很多開源的機器學習模型庫的支持,可處理大規模數據。
Matlab:擁有強大的矩陣運算,也是解釋型語言,有很多發展較成熟庫可以直接調用,支持數據結果的可視化表示,但是處理數據量有限。
R:近年興起的數據分析編程語言,數據可視化做的比較好,語法簡單,學習成本很低,很多非程序設計人員都可以數量掌握。
Java:使用范圍最廣的編程語言,有很多社區進行交流,進行編程實現具有靈活高效的特點,不足之處就是實現功能的代碼量較大(相對于其他數據挖掘編程語言)。
Scala: 一種具有面向對象風格、函數式風格、更高層的并發模型的編程語言。同時Scala是大數據處理平臺Spark的實現語言。
3 數據挖掘的模型知識
機器學習和數據挖掘是緊密相關的,要進行數據挖掘需要掌握一些機器學習所用的方法和模型知識,通過模型的訓練可以得到處理數據的最優的模型。
- 1 回答
- 0 關注
- 805 瀏覽
添加回答
舉報