-
take(n):
隨機取n個數
查看全部 -
collect()
查看全部 -
:222222
查看全部 -
rdd? action:
查看全部 -
后續課程:
Spark架構
Spark運行過程
Spark程序部署
查看全部 -
combineByKey():
(createCombiner, mergeValue, mergeCombiners, partitioner)
最常用的基于key的聚合函數,返回的類型可以與輸入類型不一樣。
許多基于key的聚合函數都用到了它,像groupByKey()
遍歷partition中的元素,元素的key,要么之前見過的,要么不是。
如果是新元素,使用我們提供的createCombiner()函數
如果是這個partition中已經存在的key,就會使用mergeValue()函數
合并每個partition的結果的時候,使用mergeCombiners()函數
查看全部 -
val rdd2 = rdd.map(line=>(line.split(" ")(0), line))
查看全部 -
RDDs的血統關系圖
延遲計算
RDD.persist()
查看全部 -
Action介紹:
在RDD上計算出來一個結果。
把結果返回給driver program或保存在文件系統,count(),save
rdd.reduce((x,y)=>x+y)
查看全部 -
集合運算
RDDs支持數學集合的計算,例如并集、交集等
val rdd_distinct = rdd1.distinct()
val rdd_union = rdd1.union(rdd2)
val rdd_inter = rdd1.intersection(rdd2)
val rdd_sub = rdd1.subtract(rdd2)
查看全部 -
Transformations介紹:
Transformations(轉換)
從之前的RDD構建一個新的RDD,像map()和filter()
逐元素Transformations:
map()接收函數,把函數應用到RDD的每一個元素,返回新RDD
filter()接收函數,返回只包含滿足filter()函數的元素的新RDD
flatMap(),對每個輸入元素,輸出多個輸出元素。flat壓扁的意思,將RDD中元素壓扁后返回一個新的RDD
val lines = inputs.flatMap(line=>line.split(" "))
lines.foreach(println)
查看全部 -
?
Driver Program
SparkContext
RDDs
查看全部 -
WordCount程序開發
查看全部 -
默認安裝選項會自動配置環境變量。
Spark 1.6.2 -- Scala 2.10?
Spark 2.0.0 -- Scala 2.11
IntelliJ IDEA常用的設置:
主題和顏色
編輯器界面字體設置
光標所在行背景顏色
查看全部 -
Spark下載,安裝;
Spark Shell操作
查看全部
舉報