-
spark不具有hdfs一樣的持久化數據的能力,需要借助hdfs存儲數據查看全部
-
spark stream處理實時流數據,如收集從kafaka處理的數據進行實時統計查看全部
-
sparkSQL處理結構化數據庫查看全部
-
快速且通用的集群計算平臺 擴充了hadoop的mapreduce模型查看全部
-
spark,hadoop,kafka spark基于內存,很通用,批式,流式,圖,分布式…… 大數據處理平臺查看全部
-
使用standalone mode啟動spark:命令行輸入
$?cd?software/spark-2.4.4-bin-hadoop2.7/sbin $?./start-master.sh 會輸出log文件地址xxx $?tail?xxx 會輸出log文件末尾,找到Starting?Spark?master?at?spark://xxx.local:7077, 也可以瀏覽器訪問http://localhost:8080/,出現視頻中的網頁
參考https://uohzoaix.github.io/studies//2014/09/13/sparkRunning/
查看全部 -
這里還可以寫筆記啊
查看全部 -
Spark組件具有緊密集成的優點:
1、Spark底層優化了,基于Spark底層的組件,也得到了相應的優化。
2、緊密集成,節省了各個組件組合使用時的部署,測試等時間。
3、向Spark增加新的組件時,其他組件可以立刻享用新組件的功能
Spark Core:
1、包含Spark的基本功能,包含任務調度,內存管理,容錯機制等。
2、內部定義了RDDs(彈性分布式數據集)。
3、提供了很多APIs來創建和操作這些RDDs。
應用場景,為其他組件提供底層的方服務。
查看全部 -
RDDs的特性:
血統關系圖,
延遲計算,
.persist()緩存
查看全部 -
開發Spark程序
查看全部 -
Spark Shell
查看全部 -
Spark對比Hadoop(2)
查看全部 -
Spark對比Hadoop(1)
查看全部 -
Spark采用緊密集成框架的優勢
查看全部 -
Spark 集群管理?
查看全部
舉報
0/150
提交
取消