我使用多種算法訓練了一個模型,包括來自skicit-learn 的隨機森林和LightGBM。這些模型在準確性和其他統計數據方面表現相似。問題在于這兩種算法在特征重要性方面的行為不一致。我使用了默認參數,并且我知道它們使用不同的方法來計算特征重要性,但我認為高度相關的特征應該始終對模型的預測產生最大的影響。隨機森林對我來說更有意義,因為高度相關的特征出現在頂部,而 LightGBM 則不然。有沒有辦法解釋這種行為,并且 LightGBM 的結果是否值得信賴?隨機森林特征重要性LightGBM 特征重要性與目標的相關性
2 回答

小唯快跑啊
TA貢獻1863條經驗 獲得超2個贊
嗯,GBM 通常表現得更好,尤其是與隨機森林進行比較時。尤其是與 LightGBM 進行比較時。與隨機森林相比,經過適當調整的 LightGBM 很可能在性能和速度方面獲勝。
GBM的優點:
More developed. A lot of new features are developed for modern GBM model (xgboost, lightgbm, catboost) which affect its performance, speed, and scalability.
GBM的缺點:
Number of parameters to tune Tendency to overfit easily
如果您不確定 LightGBM 的超參數是否正確調整,請堅持使用隨機森林;這將更容易使用和維護。
添加回答
舉報
0/150
提交
取消