我有大約 20k 個 60 - 150 字的文檔。在這 20K 個文檔中,有 400 個文檔已知類似文檔。這 400 個文檔作為我的測試數據。我正在嘗試使用 gensim doc2vec 為這 400 個數據集找到類似的文檔。“句子和文檔的分布式表示”一文說,“PV-DM 和 PV-DBOW 的組合通常效果更好(在 IMDB 中為 7.42%),因此被推薦?!彼晕蚁雽⑦@兩種方法的向量結合起來,找到與所有訓練文件的余弦相似度,并選擇余弦距離最小的前 5 個。那么結合這兩種方法的向量的有效方法是什么:加法或平均或任何其他方法???組合這兩個向量后,我可以對每個向量進行歸一化,然后找到余弦距離。
1 回答

蠱毒傳說
TA貢獻1895條經驗 獲得超3個贊
該論文暗示他們已經連接了這兩種方法的向量。例如,給定一個 300d PV-DBOW 向量和一個 300d PV-DM 向量,您將在連接后得到一個 600d 的文本向量。
但是,請注意,他們在 IMDB 上的底線結果很難讓外人重現。我的測試有時只顯示了這些連接向量的小優勢。(我特別想知道通過分離級聯模型的 300d PV-DBOW + 300d PV-DM 是否比僅在相同的時間內以更少的步驟/并發癥訓練真正的 600d 模型更好。)
gensim
您可以在其docs/notebooks
目錄中包含的示例筆記本之一中查看我重復原始“段落向量”論文的一些實驗的演示:
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb
除其他外,它包括一些步驟和有用的方法,用于將模型對視為一個連接的整體。
添加回答
舉報
0/150
提交
取消