-
RDDs combineByKey()
查看全部 -
keyvalue RDDs
查看全部 -
keyvalue RDDs
查看全部 -
RDD持久化
查看全部 -
Rdds的延遲計算
查看全部 -
RDDs的特性
查看全部 -
driver
查看全部 -
spark查看全部
-
Scala安裝
????默認安裝選項會自動配置環境變量
????spark 1.6.2 -Scala 2.10
????spark 2.0.0 -Scala 2.11
在Intellij 上安裝插件
????在Plugins,搜索Scala 直接安裝,插件中有Scala和sbt
新建項目
????file->new->project->scala->sbt
????sbt version 0.13.8? ----? scala version 2.10.5
搭建開發環境經常遇到的問題
????網絡問題;
????版本匹配問題(Scala2.10.5,jdk1.8,spark1.6.2,sbt0.113.8)
查看全部 -
spark的運行環境:
????基于Scala ,運行在JVM,運行環境Java7+
spark下載:
????搭建spark不需要Hadoop,下載后解壓
????虛擬機(Linux)聯網狀態下,通過? wget+下載鏈接
????Linux解壓命令? tar -zxvf spark.....
spark目錄
????bin目錄-可執行文件
????core,streaming主要包含組件源代碼
????examples 包含單機例子
spark的shell:
????梳理分布在集群上的數據
????可以將數據加載到節點的內存中,因此分布式處理可在秒級完成。
????快速迭代計算,實時查詢、分析
????spark提供了Python shell和Scala shell
Scala shell
????/bin/spark-shell
查看全部 -
spark與Hadoop的比較
????Hadoop的應用場景:離線處理,對時效性要求不高
????spark的應用場景:對時效性要求高,機器學習領域
查看全部 -
spark core:
????包含spark的基本功能,任務調度,內存管理,容錯機制
????內部定義了RDDs,彈性分布式數據集
spark sql:
????是spark處理結構化數據的庫
spark streaming:
????實時數據流處理組件
milb:
????包含通用機器學習功能的包,分類,聚類,回歸
????支持起群上的橫向擴展
graphx:
????處理圖的庫,并進行圖的并行計算
cluster managers:??
????集群管理
緊密集成的優點
????spark底層優化了,基于spark的底層組件也會得到相應的優化。
緊密繼承節省了各個組價組合使用時的部署,測試等時間
向spark增加新的組件時,其他組件,可立刻享用新組建的功能。
查看全部 -
spark 是一個快速且通用的集群計算平臺
基于內存的運算
通用性;降低維護成本
spark是高度開放的;Python Java scala haddoop
查看全部 -
Hadoop適合處理離線的靜態的大數據 Spark適合處理離線的流式的大數據 Storm適合處理在線的實時的大數據
查看全部 -
通用性?-?Spark提供大量的庫,包括Spark?Core、Spark?SQL、?Spark?Streaming、MLlib、Graphx.開發者可以在同一個應用程序中無縫組合使用這些庫。 支持多種資源管理器?-?Spark支持Hadoop?YARN,?Apache?Mesos,?及其自帶的獨立集群管理器。
查看全部
舉報