-
注意:版本匹配很重要,因為隨著版本更新迭代,新版本很可能刪除舊的API,不支持對應版本的Java或者Scala
查看全部 -
rdds的特性課程小結
rdds的血統關系圖
延遲計算
rdd.persist()
查看全部 -
rdds的特性
rdd.persist()可以傳入一個級別,表示是否存在內存中或硬盤上,以及是否執行序列化操作等,級別不同,對應占用空間和cpu消耗情況是不一樣的。
查看全部 -
rdds的特性
rdd.persist()可以傳入一個級別,表示是否存在內存中或硬盤上,以及是否執行序列化操作等,級別不同,對應占用空間和cpu消耗情況是不一樣的。
查看全部 -
rdds的特性
rdd.persist():
默認每次在rdds上面進行action操作時,spark都重新計算rdds
如果想重復利用一個rdd,可以使用rdd.persist()
unpersist()方法從緩存中移除;
例子--persist()
查看全部 -
rdds的特性
延遲計算:
spark對rdds的計算是,他們第一次使用action操作的時候;
這種方式在處理大數據的時候特別有用,可以減少數據的傳輸;
spark內部記錄metadata 表名tranformations操作已經被響應了;
加載數據也是延遲計算,數據只有在必要的時候,才會被加載進去。
查看全部 -
rdds的特性
rdds的血統關系圖:
spark維護著rdds之間的依賴關系和創建關系,叫做 血統關系圖
spark使用血統關系圖來計算每個rdd的需求和恢復丟失的數據。
查看全部 -
foreach():
計算rdd中的每個元素,但不返回到本地。
可以配合println()友好的打印出數據。
查看全部 -
top():
排序(根據rdd中數據的比較器),也可以設置為自定義的比較器。
查看全部 -
take(n):
返回rdd的n個元素(同時嘗試訪問最少的partitions)。
返回結果是無序的,測試使用。
查看全部 -
collect()操作,
遍歷整個rdd,向driver program返回rdd的內容;
需要單機內存能夠容納下(因為數據要拷貝給driver,測試使用)
大數據的時候,使用saveastextfile() action等。
查看全部 -
reduce例子,可以做其它類型的聚集操作,
val sum = rdd.reduce((x,y)=>x+y)
查看全部 -
reduce的累加操作,
定義rdd
調用collec()
累加計算
查看全部 -
action? ?=》reduce()
接收一個函數,作用在rdd兩個類型相同的元素上,返回新元素??梢詫崿F,rdd中元素的累加,計數,和其他類型的聚焦操作。
查看全部 -
rdd常用的action匯總,
collect()、count()、countbyvalue()、take(num)、top(num)、takeordered(num)(ordering)
查看全部
舉報