亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何結合 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量?

如何結合 doc2vec 的 PV-DM 和 PV-DBOW 方法生成的向量?

陪伴而非守候 2022-04-24 18:49:37
我有大約 20k 個 60 - 150 字的文檔。在這 20K 個文檔中,有 400 個文檔已知類似文檔。這 400 個文檔作為我的測試數據。我正在嘗試使用 gensim doc2vec 為這 400 個數據集找到類似的文檔。“句子和文檔的分布式表示”一文說,“PV-DM 和 PV-DBOW 的組合通常效果更好(在 IMDB 中為 7.42%),因此被推薦?!彼晕蚁雽⑦@兩種方法的向量結合起來,找到與所有訓練文件的余弦相似度,并選擇余弦距離最小的前 5 個。那么結合這兩種方法的向量的有效方法是什么:加法或平均或任何其他方法???組合這兩個向量后,我可以對每個向量進行歸一化,然后找到余弦距離。
查看完整描述

1 回答

?
蠱毒傳說

TA貢獻1895條經驗 獲得超3個贊

該論文暗示他們已經連接了這兩種方法的向量。例如,給定一個 300d PV-DBOW 向量和一個 300d PV-DM 向量,您將在連接后得到一個 600d 的文本向量。

但是,請注意,他們在 IMDB 上的底線結果很難讓外人重現。我的測試有時只顯示了這些連接向量的小優勢。(我特別想知道通過分離級聯模型的 300d PV-DBOW + 300d PV-DM 是否比僅在相同的時間內以更少的步驟/并發癥訓練真正的 600d 模型更好。)

gensim您可以在其docs/notebooks目錄中包含的示例筆記本之一中查看我重復原始“段落向量”論文的一些實驗的演示:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-IMDB.ipynb

除其他外,它包括一些步驟和有用的方法,用于將模型對視為一個連接的整體。


查看完整回答
反對 回復 2022-04-24
  • 1 回答
  • 0 關注
  • 286 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號