-
詞頻-你文件頻率(TF-IDF)
缺點:
詞頻(TF)和逆文件頻率(IDF)的統計和計算都直接從語料統計得出,當增加語料的時候,TF和IDF往往需要重新計算,無法增量更新,每次添加語料,需要重新計算詞頻。?
沒有考慮特征詞的位置因素對文本的區分度,詞條出現在文檔的不同位置時,對區分度貢獻大小是不一樣的。
按照傳統TF-IDF,往往一些生僻詞的IDF(反文檔頻率)會比較高、因此這些生僻詞往往會被誤認為是文檔關鍵詞。
查看全部 -
One-Hot缺點:
????1.詞通常很多,幾十萬個詞,那就需要句子長度x幾十萬的矩陣才能表示這個句子
? ? 2.這種方法效率低下,矩陣包含很多零
? ? 3.無法表達相似性
? ? 4.新加一個詞我們需要重新計算
查看全部 -
One-Hot理解:
先給句子分詞,分詞組從詞表,詞表有索引,然后編碼形成矩陣
查看全部 -
文本表示方法:One-Hot、TF-IDF、Word2Vec
查看全部 -
缺點:
浪費空間,不利于計算
體現不出單詞間的關系
優點:
長度遠小于字典長度
向量加爵代表相似度
可以增量添加新詞
查看全部 -
一個樸素的想法就是,我們把One-Hot中0的位置也利用起來,并且用浮點數來表示詞特性,這樣我們就可以用固定的,較小的維度來表達海量的信息
查看全部 -
IDF 是逆文件頻率,表示關鍵詞的普遍程度。
如果包含詞條i的文檔越少,IDF越大,則說明該詞條具有很好的類別區分能力。
某一特定詞語的IDF,可以由總文件數目除以包含該詞語的文件數目,再將得到的商取對數得到。
查看全部 -
不懂的名詞兒:
卷積?
過擬合
loss
激活函數
embedding層
查看全部 -
試試筆記功能,調閾值
查看全部 -
老師,代碼在哪里呀?4章 和5 章
查看全部 -
建模區別:
查看全部 -
查看全部
-
1
111111
查看全部 -
22222
查看全部 -
github
查看全部 -
獨熱編碼的缺點
查看全部 -
獨熱編碼(one-hot)
查看全部 -
文本表示方法
查看全部 -
文本分類任務描述
查看全部 -
文本分類任務描述
查看全部 -
應用——知識點抽取
查看全部 -
應用-----非結構化信息提取
查看全部 -
應用--意圖識別
查看全部 -
應用,情感分析
查看全部 -
文本分類任務描述
查看全部 -
我的筆記筆記筆記,自然期刊
查看全部 -
我的筆記筆記筆記,自然自然
查看全部 -
我的筆記筆記筆記,自然
查看全部
舉報