-
iris花經典數據集
預處理,隨機切割分為訓練集和測試集
clf fit加載訓練集到分類器中
predict來預測測試集,計算準確率,驗證分類器的性能
使用準確率metrics accuracy_score
或混淆矩陣metrics confusion_matrix
查看全部 -
機器學習
無監督 不打標簽 聚類
監督 打標簽 分類 回歸
決策樹,通過不同的條件,來判斷一個問題如果處理
條件的選取有不同的算法,一種是觀察信息熵的變化,來決定
概率*log概率
查看全部 -
scikit-learn數據挖掘,機器學習的庫
查看全部 -
date_range時間序列 日期
periods個數,freq單位
文件操作 xlsx csv
read_csv
read_excel(文件名,表名)
to_csv保存
to_excel
查看全部 -
統計方法
mean var std
value_counts計算值出現的次數
group_by類似sql的分組聚合
pivot_table透視表,數據交叉分析中常用
查看全部 -
缺失值NaN的處理
可以丟棄dropna 整行或列去除
也可以填充固定值或插值 fillna
查看全部 -
head打印前幾行
tail打印后幾行
index打印主鍵
values打印數據
sort排序,直接指定按那個標簽排序
describe可以大致分析數據的一些特征,平均值,標準差等
可以通過[]直接下標索引切片
多個series組成dataframe
查看全部 -
import pandas as pd
Series是pandas中基礎的數據結構
date_range('20200202',periods=8)依次生成8天,天數作為主鍵,行標簽
DataFrame(數據,index主鍵也就是行標簽,colums也就是列標簽)
類似excel
查看全部 -
pandas是一種專門分析處理數據的庫
查看全部 -
學習scipy多看官網的文檔以及示例
進一步加強學習
查看全部 -
scipy中的linalg包含一些線性計算
可以對矩陣進行分解
使用方法與numpy類似
QR分解
SVD分解等
查看全部 -
scipy interpolate下的interpld是一維函數的插值算法
用來擬合曲線等,三角函數
查看全部 -
scipy optimize 下面的優化器
minimize最小值
nelder-mead是一種計算最小值的方法
查看全部 -
scipy.intergrate中的quad是積分模塊
dblquad是二元積分
查看全部 -
scipy包含各種科學計算
數據分析的工具
查看全部
舉報