-
混淆矩陣,用于衡量分類算法的準確程度
True Positives(TP):預測準確、實際為正樣本的數量(實際為1,預測為1)
True Negatives(TN):預測準確,實際為負樣本的數量(實際為0,預測為0)
False Positive(FP):預測錯誤、實際為負樣本的數量(實際為0,預測為1)
FalseNegatives(FN):預測錯誤、實際為正樣本的數量(實際為1,預測為0)
查看全部 -
邏輯回歸模型:計算數據歸屬于某一類別的概率P,根據概率數值判斷其類別。主要應用于二分類問題
查看全部 -
邏輯回歸模型:在二分類問題中使用更加廣泛
使用準確率進行模型評估的局限性
混淆矩陣、模型衡量指標及其意義
查看全部 -
將整個數據集用于訓練與測試,訓練數據與測試數據相同導致的問題:
1)訓練模型的最終目標是為了預測新數據對應的結果
2)最大化訓練準確率通常會導致模型復雜化
3)過度復雜模型容易導致訓練數據的過度擬合
查看全部 -
# 模型評估 比較不同K值 模型的好壞
# 全數據集訓練與預測
# 訓練數據集、測試數據集分離
# 如何選擇模型合適的參數,預測新數據對應結果
查看全部 -
使用scikit-learn建模四步驟
調用需要使用的模型類
模型初始化,創建一個模型實例
模型訓練
模型預測
查看全部 -
給定一個訓練數據集,對新的輸入實例,在訓練數據集中找到與該實例最鄰近的K個實例,這K個實例的多數屬于某個類,就把該輸入實例分類到這個類中。
查看全部 -
分類: 根據數據集目標的特征或者屬性,劃分到已有類別中
常用的分類算法:K近鄰(KNN),邏輯回歸、決策樹、樸素貝葉斯
查看全部 -
數據預處理:
iris數據加載
數據展示
確認數據維度
使用scikit-learn進行數據處理的四個關鍵點
1區分開屬性數據與結果數據
2屬性數據與結果數據都是量化的
3運算過程中,屬性數據與結果數據的類型都是Numpy數組
4屬性數據與結果數據的維度是對應的
查看全部 -
界面設置
jt -t oceans16 -f fira -fs 17 -cellw 90% -ofs 14 -dfs 14 -T
查看全部 -
Jupyter notebook
是一個開源的Web應用程序,旨在方便開發者創建和共享代碼文檔,用戶可以在里面寫代碼、運行代碼、查看結果,并在其中可視化數據。
基于Web框架進行交互開發,非常方便。
查看全部 -
Scikit-learn的特點是繼承了機器學習中各類成熟的算法,容易安裝和使用,樣例豐富、教程和文檔也非常詳細。
但sklearn不支持python之外的語言,不支持深度學習和強化學習。
查看全部 -
Scikit-learn工具包
Python中針對機器學習應用而發展起來的一款開源框架??梢詫崿F數據預處理、分類、回歸、降維、模型選擇等常用的機器學習算法。
查看全部 -
Python的使用場景:Web、Mobile、Enterprise、Embedded
Python的優點:簡單、開發效率高、高級語言、可移植性、可擴展性、可嵌入性。
缺點:速度慢、代碼不能加密
查看全部 -
解釋性:不需要變異成二進制代碼,可以直接從源代碼運行
面向對象:Python既支持面向過程的編程也支持面向對象
可移植性:開源本質,可以在不同平臺進行開發
高層語言:無須考慮諸如如何管理程序使用的內存一類的底層細節
查看全部
舉報