亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

在pyton 2.7中計算TF-IDF(用三行代碼)。這段代碼有效嗎?

在pyton 2.7中計算TF-IDF(用三行代碼)。這段代碼有效嗎?

紅顏莎娜 2023-07-18 16:54:43
我正在嘗試計算大約 7000 個文檔的語料庫的 tfidf 值。在互聯網上搜索,我找到了很多示例(當我嘗試為每個文檔創建唯一詞矩陣時,其中許多示例被鎖定)。唯一有效的似乎是下面的代碼from sklearn.feature_extraction.text import TfidfVectorizerimport pandas as pdtfidf = TfidfVectorizer()x = tfidf.fit_transform(corpus)df_tfidf = pd.DataFrame(x.toarray(), columns=tfidf.get_feature_names())print(df_tfidf)假設以下語料庫corpus = [ 'This is the first document.', 'This document is the second document.', 'And this is the third one.', 'Is this the first document?']它產生了這樣的輸出:這段代碼也適用于我的情況,事實上它生成了一個包含 7180 行和 10390 列的矩陣。但我不確定這是否正確。您認為,這是計算一組文檔的 tfidf 的有效解決方案嗎?ps:我可以插入我關注的指南鏈接嗎?
查看完整描述

1 回答

?
慕田峪7331174

TA貢獻1828條經驗 獲得超13個贊

是的,這是計算 tf-idf 矩陣的正確方法。

您正在使用

x = tfidf.fit_transform(corpus)

它首先適合您的TfidfVectorizer語料庫,然后相應地轉換語料庫,這樣您就可以得到 tf-idf 矩陣作為x


查看完整回答
反對 回復 2023-07-18
  • 1 回答
  • 0 關注
  • 123 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號