我正在嘗試使用線性回歸來預測未來幾年的節目發行量。我有一個數據框,其中每一行都是一個版本,其中包含發布年份、流派等信息的列......我想用它來預測即將發布的版本的數量,所以我所做的就是制作一個新的數據框所有唯一年份和 count_values 的總和,以獲得當年的發行量。所以現在我有 85 行 2 列 1 是年份,另一列是發行量。我正在為此唱 sklearn,這是我到目前為止所做的代碼。x = ML_content.drop('releases', axis = 1)#x = ML_content['years']y = ML_content['releases']x_train, y_train, x_test, y_test = train_test_split(x, y, test_size = 20)x_train.shape, y_train.shapemodel = linear_model.LinearRegression()model.fit(x_train, y_train)我認為形狀過程的結果不符合我的要求(這是結果:)((42, 1), (43, 1)),因此以下代碼也不起作用。任何人都可以向我解釋我做錯了什么或需要發生什么來改變這一點。謝謝你的時間和幫助
1 回答

holdtom
TA貢獻1805條經驗 獲得超10個贊
根據https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html,train_test_split
的返回順序與您的順序不同。
返回的順序是:X_train, X_test, y_train, y_test
你得到:x_train, y_train, x_test, y_test
添加回答
舉報
0/150
提交
取消