簡介:本課介紹數據預處理過程體系,包括數據類型與采集、文本轉化與抽取、數據集成與規約、中文分詞、數據清洗、特征提取與變換、特征向量化、特征降維、特征選擇、可視化、詞典模型、TF-IDF向量模型、主題模型等。
第1章 手工實現文本特征向量化
第2章 Gensim實現文本特征向量化
- 視頻: 2-1 Gensim介紹 (02:33)
- 視頻: 2-2 Gensim構建語料詞典(1) (12:48)
- 視頻: 2-3 Gensim構建語料詞典(2) (05:48)
- 視頻: 2-4 Gensim統計詞頻特征 (05:49)
- 視頻: 2-5 Gensim計算TT-IDF(1) (11:12)
- 視頻: 2-6 Gensim計算TF-IDF(2) (04:24)
- 視頻: 2-7 LSA潛在語義分析-加載數據(1) (06:21)
- 視頻: 2-8 LSA潛在語義分析-生成主題模型(2) (10:09)
- 視頻: 2-9 LDA隱含狄利克雷分布(1) (10:36)
- 視頻: 2-10 LDA隱含狄利克雷分布(2) (02:18)
- 視頻: 2-11 RP生成隨機映射 (05:10)
- 視頻: 2-12 HDP分層狄利克雷過程 (05:16)
- 視頻: 2-13 Gensim實現新聞文本特征向量化(1) (08:24)
- 視頻: 2-14 Gensim實現新聞文本特征向量化(2) (07:42)
- 視頻: 2-15 Gensim實現新聞文本特征向量化(3) (11:11)
- 視頻: 2-16 Gensim實現新聞文本特征向量化(4) (02:02)