我有一個數據集,其標題為產品名稱、品牌、評級(1:5)、評論文本、評論幫助。我需要的是使用評論提出推薦算法。我必須在這里使用 python 進行編碼。數據集為 .csv 格式。為了識別數據集的性質,我需要在數據集上使用 kmeans。如何在這個數據集上使用 k 均值?因此我做了以下操作,1.數據預處理,2.review 文本數據清理,3.sentiment 分析,4.根據他們獲得的情緒值(由情緒分析給出)給情緒評分從 1 到 5,并將評論標記為非常消極,消極,中性,積極,非常積極。在這些程序之后,我的數據集中有這些列,產品名稱,品牌,評級(1:5),評論文本,評論幫助,情感價值,情感標簽。這是數據集的鏈接https://drive.google.com/file/d/1YhCJNvV2BQk0T7PbPoR746DCL6tYmH7l/view?usp=sharing我嘗試使用以下代碼獲取 k 表示它運行時沒有錯誤。但我不知道這是有用的東西,或者有沒有其他方法可以在這個數據集上使用 kmeans 來獲得其他有用的輸出。要確定有關數據的更多信息,我應該如何在此數據集中使用 k 均值..import pandas as pdimport numpy as npfrom sklearn.cluster import KMeansimport matplotlib.pyplot as pltdf.info()X = np.array(df.drop(['sentiment_value'], 1).astype(float))y = np.array(df['rating'])kmeans = KMeans(n_clusters=2)kmeans.fit(X)KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300, n_clusters=2, n_init=10, n_jobs=1, precompute_distances='auto', random_state=None, tol=0.0001, verbose=0)plt.show()
2 回答

千萬里不及你
TA貢獻1784條經驗 獲得超9個贊
除非您更具體地說明您想要實現的目標,否則我們將無法提供幫助。弄清楚你到底想預測什么。您只是想根據不太有希望的情緒得分對產品進行聚類,還是想在新數據集上預測實際的產品偏好?
如果你想建立一個推薦系統,唯一的可能性(考慮你的數據集)是根據評級/情緒識別類似的產品。那是你要的嗎?
添加回答
舉報
0/150
提交
取消