首頁手記 Spark...

Spark MLlib機器學習開發指南(5)--特征提取--Word2Vec

標簽：

大數據

Spark MLlib机器学习开发指南(5)--特征提取，转换，选择--Word2Vec

翻译自Word2Vec,基于最新2.2.0版本翻译,转载注明出处 xcrossed 机器学习

Word2Vec

在spark ml中，Word2Vec是一个估计器（前面说过估计器和转换器的概念了，可以往回看具体概念），由表示文档的单词序列训练而成的一个Word2VecModel。模型映射每个单词为一个唯一固定大小的向量。Word2VecModel使用文档中所有单词的平均值将每个文档转换成一个向量，这个向量可以作为预测的特征，文档相似性计算等等。请参阅Word2VecMLlib的用户指南，以了解更多细节。

示例
在下面的代码片断，我们一个文档集合开始，每个文档由一序列的单词表示。每个文档我们将转换成一个特征向量，这个特征向量可以被传递给一个学习算法。

详细API请参考Word2Vec Scala docs

import org.apache.spark.ml.feature.Word2Vecimport org.apache.spark.ml.linalg.Vectorimport org.apache.spark.sql.Row// Input data: Each row is a bag of words from a sentence or document.val documentDF = spark.createDataFrame(Seq(  "Hi I heard about Spark".split(" "),  "I wish Java could use case classes".split(" "),  "Logistic regression models are neat".split(" ")
).map(Tuple1.apply)).toDF("text")// Learn a mapping from words to Vectors.val word2Vec = new Word2Vec()
  .setInputCol("text")
  .setOutputCol("result")
  .setVectorSize(3)
  .setMinCount(0)val model = word2Vec.fit(documentDF)val result = model.transform(documentDF)
result.collect().foreach { case Row(text: Seq[_], features: Vector) =>
  println(s"Text: [${text.mkString(", ")}] => \nVector: $features\n") }

作者：xcrossed
链接：https://www.jianshu.com/p/f92967ad49a8

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

慕俠2389804

手記
篇

粉絲

56

獲贊與收藏

159

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32254 360

網絡編程入門教程

20個小節 13299 250

Pandas 入門教程

25個小節 19918 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Spark MLlib機器學習開發指南(5)--特征提取--Word2Vec

Spark MLlib机器学习开发指南(5)--特征提取，转换，选择--Word2Vec

Word2Vec

閱讀免費教程