首頁猿問在win10中擁SparkR連接s...

在win10中擁SparkR連接spark失敗

Spark

慕娘9325324 2018-10-28 04:00:02

查看完整描述

1 回答

繁星coding

TA貢獻1797條經驗獲得超4個贊

　　Spark提供了輕量的前端。SparkR提供了Spark中彈性分布式數據集（RDD）的API，用戶可以在集群上通過R
　　shell交互性的運行job。例如，我們可以在HDFS上讀取或寫入文件，也可以使用 lapply 來定義對應每一個RDD元素的運算。
　　sc <- sparkR.init（“local”）
　　lines <- textFile（sc, “hdfs://data.txt”）
　　wordsPerLine <- lapply（lines, function（line） { length（unlist（strsplit（line, “ ”））） }）
　　除了常見的RDD函數式算子reduce、reduceByKey、groupByKey和collect之外，SparkR也支持利用
　　lapplyWithPartition 對每個RDD的分區進行操作。
　　SparkR也支持常見的閉包（closure）功能：用戶定義的函數中所引用到的變量會自動被發送到集群中其他的機器上。參見一下例子中用戶閉包中引用的
　　initialWeights 會被自動發送到集群其他機器上。
　　lines <- textFile（sc, “hdfs://data.txt”）
　　#niniaialWeights is automatically serialized
　　createMatrix <- function（line） {
　　as.numeric（unlist（strsplit（line, “ ”））） %*% t（initialWeights）
　　}

反對回復 2018-11-09

1 回答
0 關注
881 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

在win10中擁SparkR連接spark失敗

在win10中擁SparkR連接spark失敗

1 回答

添加回答