-
Spark目錄:
bin包含用來和spark交互的可執行文件,如spark shell
core, streaming ,python,包含主要組件的源代碼
examples包含一些單機Spark job,可以研究和運行這些例子
Spark的shell:
Spark的shell使得能夠處理分布在集群上的數據
Spark把數據加載到節點的內存中,因此,分布式處理可以在秒級完成。
快速式迭代式計算,實時查詢、分析一般能夠在shell中完成
spark提供了python shells和Scala shells
python shells位于bin/pyspark
scala shell位于 bin/spark-shell
查看全部 -
WordCount程序
查看全部 -
Scala項目。。
查看全部 -
版本版本版本
查看全部 -
版本不一樣,安裝報錯,標記下。
查看全部 -
Spark安裝
Spark運行環境:
Spark是用Scala寫的,運行在JVM上,所以運行環境Java7+
如果是用Python API,需要安裝Python 2.6+ 或者Python3.4+
查看全部 -
版本設置標記。
查看全部 -
Spark和Hadoop的比較
Hadoop應用場景:離線處理、對時效性要求不高,因為hadoop的中間數據在硬盤上
Spark應用場景:時效性要求高的場景&機器學習
兩者都是擁有完整的生態系統,每個組件都有其作用,各善其職;
Spark不具有HDFS的存儲能力,要借助HDFS等持久化數據
查看全部 -
Graphx:是處理圖的庫(例如,社交網絡圖),并進行圖的并行計算。
像,spark streaming,Spark SQL一樣,他也繼承了RDD API
他提供了各種圖的操作,和常用的圖算法
Cluster Managers:集群管理,Spark自帶一個集群管理是一個單獨調度器。
常見集群管理包括Hadoop YARN,apache Mesos
查看全部 -
Spark? SQL:
是Spark處理結構化數據的庫,就像Hive SQL,Mysql一樣。
應用場景,企業中用來做報表統計
Spark Streaming:
是實時數據流處理的組件,類似Storm
Spark Streaming 提供了API來操作實時流數據
應用場景,企業中用來從Kafka接收數據做實時統計
MLlib:
一個包含通用機器學習功能的包,Machine Learning lib。
包含分類、聚類、回歸等,還包括模型評估和導入。
MLlib提供的上面這些方法,都支持集群上的擴展
應用場景:機器學習
查看全部 -
Spark Core:
包含了spark的基本功能,包含任務調度、內存管理、容錯機制等;
內部定義了RDDs(彈性分布式數據集)
提供了很多APIs來創建和操作這些RDDs
應用場景是為其他組件提供底層服務
查看全部 -
Spark的特點:
快速,擴充了流行的Mapreduce計算模型,比Hadoop快,基于內存計算,讀取速度快;
通用,容納了其他分布式系統擁有的功能:批處理、迭代式計算、交互查詢和流處理,方便維護;
高度開放,提供了python、java、scala、SQL的API和豐富的內置庫(Scala是spark的原生語言);和其他的大數據工具整合的很好,包括hadoop、kafka等
查看全部 -
scala項目初始化結構
查看全部 -
hadoop 離線處理 實時性要求不高的場景,中間計算數據存儲在磁盤,處理時間分鐘-小時
spark 即時處理 實時性要求高的場景,中間計算數據存儲在內存,處理時間秒-分鐘
查看全部 -
11查看全部
舉報