已解決430363個問題，去搜搜看，總會有你想問的

如何結合 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量？

首頁猿問如何結合 doc2vec 的...

如何結合 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量？

Python

陪伴而非守候 2022-04-24 18:49:37

我有大約 20k 個 60 - 150 字的文檔。在這 20K 個文檔中，有 400 個文檔已知類似文檔。這 400 個文檔作為我的測試數據。我正在嘗試使用 gensim doc2vec 為這 400 個數據集找到類似的文檔?！熬渥雍臀臋n的分布式表示”一文說，“PV-DM 和 PV-DBOW 的組合通常效果更好（在 IMDB 中為 7.42%），因此被推薦。”所以我想將這兩種方法的向量結合起來，找到與所有訓練文件的余弦相似度，并選擇余弦距離最小的前 5 個。那么結合這兩種方法的向量的有效方法是什么：加法或平均或任何其他方法？？？組合這兩個向量后，我可以對每個向量進行歸一化，然后找到余弦距離。

查看完整描述

1 回答

蠱毒傳說

TA貢獻1895條經驗獲得超3個贊

該論文暗示他們已經連接了這兩種方法的向量。例如，給定一個 300d PV-DBOW 向量和一個 300d PV-DM 向量，您將在連接后得到一個 600d 的文本向量。

但是，請注意，他們在 IMDB 上的底線結果很難讓外人重現。我的測試有時只顯示了這些連接向量的小優勢。（我特別想知道通過分離級聯模型的 300d PV-DBOW + 300d PV-DM 是否比僅在相同的時間內以更少的步驟/并發癥訓練真正的 600d 模型更好。）

gensim您可以在其docs/notebooks目錄中包含的示例筆記本之一中查看我重復原始“段落向量”論文的一些實驗的演示：

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

除其他外，它包括一些步驟和有用的方法，用于將模型對視為一個連接的整體。

反對回復 2022-04-24

1 回答
0 關注
289 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何結合 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量？

如何結合 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量？

1 回答

添加回答