亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

處理模型中未找到的 gensim 中的新詞

處理模型中未找到的 gensim 中的新詞

翻閱古今 2022-01-11 19:39:14
假設我正在嘗試使用 distances() 計算單詞和文檔之間的平均距離,或者使用 n_similarity() 計算兩個文檔之間的余弦相似度。但是,假設這些新文檔包含原始模型沒有的單詞。gensim 如何處理這個問題?我一直在閱讀文檔,找不到 gensim 對未找到的單詞做了什么。我寧愿 gensim 不計入平均值。因此,在 distances() 的情況下,它不應該返回任何東西,或者在我使用 numpy. 在 n_similarity 的情況下,gensim 當然必須自己做......我之所以問,是因為我的程序必須分類的文檔和單詞在某些情況下會包含我不想在分類過程中考慮的未知單詞、名稱、品牌等。所以,我想知道我是否必須對我試圖分類的每個文檔進行預處理。
查看完整描述

2 回答

?
眼眸繁星

TA貢獻1873條經驗 獲得超9個贊

根據上下文,Gensim 通常要么忽略未知單詞,要么拋出一個錯誤,比如KeyError精確單詞查找失敗。(此外,一些詞向量模型,例如FastText,可以根據訓練期間觀察到的詞片段為未知詞合成優于無的猜測向量。)

您應該使用感興趣的特定模型/方法嘗試所需的操作以觀察結果。

如果拋出了操作中斷錯誤并且您的代碼出現問題,您可以預先過濾您的單詞列表以刪除模型中不存在的那些。


查看完整回答
反對 回復 2022-01-11
?
慕標琳琳

TA貢獻1830條經驗 獲得超9個贊

這些模型是在向量上定義的,默認情況下,向量只依賴于舊詞,所以我不希望它們依賴于新詞。

根據代碼,新詞仍然可能影響結果。為了安全起見,我建議在小文本上測試您的特定模型和/或指標(有和沒有一堆新詞)。


查看完整回答
反對 回復 2022-01-11
  • 2 回答
  • 0 關注
  • 271 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號