我正在與一家公司合作開發用于預測性維護的 ML 模型。我們擁有的數據是日志文件的集合。在每個日志文件中,我們都有來自傳感器(溫度、壓力、MototSpeed 等)的時間序列和我們記錄發生的故障的變量。此處的目的是構建一個模型,該模型將使用日志文件作為其輸入(時間序列)并預測是否會出現故障。為此,我有一些問題:1)能夠做到這一點的最佳模型是什么?2)處理不平衡數據的解決方案是什么?事實上,對于某種故障,我們沒有足夠的數據。在將時間序列轉換為固定長度的子時間序列后,我嘗試使用 LSTM 構建一個 RNN 分類器。如果有故障,則目標為 1,否則為 0。與零的數量相比,1 的數量可以忽略不計。結果,模型總是預測為0。解決辦法是什么?
1 回答

慕少森
TA貢獻2019條經驗 獲得超9個贊
Mohamed,對于這個問題,您實際上可以從傳統的 ML 模型(隨機森林、lightGBM 或任何此類性質)開始。我建議您專注于您的功能。例如,您提到了 Pressure、MototSpeed?;仡欉^去的某個時間窗口。在同一窗口 st.dev 中計算移動平均值、最小值/最大值。要解決這個問題,您需要擁有一組健康的功能??匆幌?featuretools 包。您可以使用它或了解可以使用時間序列數據創建哪些功能?;氐侥愕膯栴}。
1)能夠做到這一點的最佳模型是什么?如上所述的傳統 ML 方法。您也可以使用深度學習模型,但我會首先從簡單模型開始。另外,如果你沒有大量數據,我可能不會接觸 RNN 模型。
2)處理不平衡數據的解決方案是什么?您可能希望對數據進行過度采樣或欠采樣。對于過采樣,請查看 SMOTE 包。
祝你好運
添加回答
舉報
0/150
提交
取消