我目前正在處理很容易過度擬合的數據,因此我通過測試每個深度的 roc_auc 分數來編寫函數,因為我在 sklearn 上讀到 max_深度通常是樹過度擬合的原因。但我不確定我的想法是否正確,這里有我的結果圖片:我也嘗試使用后修剪方法,但我的圖表看起來與我在互聯網上找到的其他圖表有很大不同,所以我不確定它給了我什么
1 回答

尚方寶劍之說
TA貢獻1788條經驗 獲得超4個贊
您正在尋找的術語是交叉驗證?;舅枷牒芎唵危簩祿殖捎柧毤万炞C(或測試)集。然后,您在訓練集上訓練模型并在驗證集上測試它。如果您的模型過度擬合,它將在訓練集上表現良好,但在驗證集上表現不佳。在這種情況下,最好降低模型復雜性或添加所謂的正則化(例如樹修剪)。
注 1:在某些情況下(例如在神經網絡中),同時存在驗證集和測試集(除了訓練集之外)。我不會在這里詳細介紹,但請不要與不同上下文中的這些術語相混淆。
注2:交叉驗證是一個非常標準的事情,它甚至給另一個StackExchange站點起了一個名字——Cross?Validated,在這里你可以得到更多關于統計數據的答案。另一個也許更合適的網站有一個不言自明的名稱——數據科學。
添加回答
舉報
0/150
提交
取消