假設我正在嘗試使用 distances() 計算單詞和文檔之間的平均距離,或者使用 n_similarity() 計算兩個文檔之間的余弦相似度。但是,假設這些新文檔包含原始模型沒有的單詞。gensim 如何處理這個問題?我一直在閱讀文檔,找不到 gensim 對未找到的單詞做了什么。我寧愿 gensim 不計入平均值。因此,在 distances() 的情況下,它不應該返回任何東西,或者在我使用 numpy. 在 n_similarity 的情況下,gensim 當然必須自己做......我之所以問,是因為我的程序必須分類的文檔和單詞在某些情況下會包含我不想在分類過程中考慮的未知單詞、名稱、品牌等。所以,我想知道我是否必須對我試圖分類的每個文檔進行預處理。
2 回答

眼眸繁星
TA貢獻1873條經驗 獲得超9個贊
根據上下文,Gensim 通常要么忽略未知單詞,要么拋出一個錯誤,比如KeyError
精確單詞查找失敗。(此外,一些詞向量模型,例如FastText
,可以根據訓練期間觀察到的詞片段為未知詞合成優于無的猜測向量。)
您應該使用感興趣的特定模型/方法嘗試所需的操作以觀察結果。
如果拋出了操作中斷錯誤并且您的代碼出現問題,您可以預先過濾您的單詞列表以刪除模型中不存在的那些。

慕標琳琳
TA貢獻1830條經驗 獲得超9個贊
這些模型是在向量上定義的,默認情況下,向量只依賴于舊詞,所以我不希望它們依賴于新詞。
根據代碼,新詞仍然可能影響結果。為了安全起見,我建議在小文本上測試您的特定模型和/或指標(有和沒有一堆新詞)。
添加回答
舉報
0/150
提交
取消