我想在我的機器學習模型中使用預訓練的詞嵌入。我擁有的嵌入文件這個詞大約是 4GB。我目前在字典中將整個文件讀入內存,每當我想將一個詞映射到它的向量表示時,我都會在該字典中進行查找。內存使用率非常高,我想知道是否有另一種使用詞嵌入的方法,而無需將整個數據加載到內存中。我最近遇到了 Python 中的生成器。他們可以幫助我減少內存使用嗎?
1 回答

元芳怎么了
TA貢獻1798條經驗 獲得超7個贊
你有什么任務?如果這是基于相似性的任務,您可以簡單地使用load_word2vec_format
gensim 中的方法,這允許您傳入加載向量數量的限制。Googlenews 集中的向量按頻率排序,這將為您提供關鍵向量。這在理論上也是有道理的,因為頻率較低的詞通常具有相對較差的表示。
添加回答
舉報
0/150
提交
取消