-
Spark Streaming:
是實時的數據流處理組件,類似Storm。
Spark Streaming提供了API來操作實時數據流數據
應用場景,企業中用來從Kafka來接收數據做實時統計
查看全部 -
Spark SQL:
是Spark處理結構化數據的庫,就像Hive SQL、Mysql一樣。
應用場景:企業中用來做報表統計
查看全部 -
Spark Core:
1、包含Spark的基本功能,包含任務調度,內存管理,容錯機制等。
2、內部定義了RDDs(彈性分布式數據集)。
3、提供了很多APIs來創建和操作這些RDDs。
應用場景,為其他組件提供底層的方服務。
查看全部 -
Spark組件
查看全部 -
Spark歷史
查看全部 -
Spark歷史
Mapreduce在迭代式計算和交互式上低效,引入了內存存儲
查看全部 -
Spark課程大綱
查看全部 -
RDD不可改變的分布式數據集合對象
所有的計算都是RDD的生成,轉換操作完成
一個RDD內部由許多partitions分片組成
分片是并行處理單元, spark底層會并行的,或者順行的處理。
查看全部 -
RDDs總共有兩種操作:transformations、actions
查看全部 -
RDDs特性
1、血統關系圖
2、延遲計算:只有對RDDs開始進行action操作時,才會加載RDDs(對大數據處理十分有效)
3、RDDs.presist(),重復利用RDDs時。(什么作用?)
查看全部 -
RDDs(彈性數據集)即是加載外部數據集(被解析文件)賦值的變量或者是用parallelize方法將一個集合賦值給的變量,RDDs創建后就不會改變了,且是分片后放在不同機器上,并行處理分片就能加快速度
val定義的RDDs不可修改
var定義的可以修改為同類型的值
變量需要定義
=>表示。。。
查看全部 -
combineBykey一次沒看懂,過會兒學完Scala 和 函數式變成再過來學習一遍。。。。。
查看全部 -
hello !
Hello Spark
Hello World
after flatmap(line>> line.split(" " ))
hello
!
Hello
Spark
Hello
World
查看全部 -
flatMap 更細致元素,每一個全部
查看全部 -
spark 啟動 master worker? 、
查看全部
舉報