亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

在新的(未見過的)文本上部署文本分類模型

在新的(未見過的)文本上部署文本分類模型

慕容708150 2024-01-12 10:27:28
我正在研究文本分類問題。我附上了我訓練過的文本分類模型的簡單虛擬片段。如何在 new_text 上部署模型?當模型用于 時check_predictions,它可以正確地對文本進行分類,但是,當使用新數據時,分類是錯誤的。這是因為new_text需要矢量化嗎?我錯過了一些基本的東西嗎?from collections import Counterfrom sklearn.naive_bayes import MultinomialNBfrom sklearn.metrics import accuracy_scoreimport pandas as pdfrom sklearn.feature_extraction.text import CountVectorizerfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import classification_reportfrom sklearn.metrics import accuracy_score, precision_score, recall_scoredf = pd.read_csv("/Users/veg.csv")print (df)X_train, X_test, y_train, y_test = train_test_split(df['Text'], df['Label'],random_state=1, test_size=0.2)cv = CountVectorizer()X_train_vectorized = cv.fit_transform(X_train)X_test_vectorized = cv.transform(X_test)naive_bayes = MultinomialNB()naive_bayes.fit(X_train_vectorized, y_train)predictions = naive_bayes.predict(X_test_vectorized)print("Accuracy score: ", accuracy_score(y_test, predictions))print('accuracy %s' % accuracy_score(predictions, y_test))print(classification_report(y_test, predictions))check_predictions = []for i in range(len(X_test)):       if predictions[i] == 0:        check_predictions.append('vegetable')    if predictions[i] == 1:        check_predictions.append('fruit')    if predictions[i] == 2:        check_predictions.append('tree')        dummy_df = pd.DataFrame({'actual_label': list(y_test), 'prediction': check_predictions, 'Text':list(X_test)})dummy_df.replace(to_replace=0, value='vegetable', inplace=True)dummy_df.replace(to_replace=1, value='fruit', inplace=True)dummy_df.replace(to_replace=2, value='tree', inplace=True)print("DUMMY DF")print(dummy_df.head(10))
查看完整描述

1 回答

?
牧羊人nacy

TA貢獻1862條經驗 獲得超7個贊

無論您輸入模型中的任何(新)文本都必須經過與訓練數據完全相同的預處理步驟 - 這里 CountVectorizer已經與您的X_train:


new_data_vectorized = cv.transform(new_data) # NOT fit_transform

new_predictions = naive_bayes.predict(new_data_vectorized)


查看完整回答
反對 回復 2024-01-12
  • 1 回答
  • 0 關注
  • 136 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號