-
scala變量分配 var val查看全部
-
foreach遍歷查看全部
-
spark程序打jar包 1、配置jar包 2、build查看全部
-
Spark 1.6.2 ——Scala 2.10 Spark 2.0.0——Scala 2.1.1查看全部
-
快速:秒和分級別,相比hadoop的分和時 通用:應用場景多 快速: 1、擴充hadoop的Mapreduce計算模型 2、基于內存計算章節 通用: 1、容納其他分布式系統功能,具有批計算,迭代式計算,交互查詢和流處理 2、高度開發,提供多yu8yan的API,具有豐富的內置庫查看全部
-
延遲計算查看全部
-
。。。。查看全部
-
123查看全部
-
啟動master ./sbin/start-master.sh 啟動worker ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://localhost.localdomain:7077 提交作業 ./bin/spark-submit --master spark://localhost.localdomain:7077 --class WordCount /home/spark/testspark.jar查看全部
-
啟動集群: 啟動master ./sbin/start-master.sh 啟動worker ./bin/spark-class 提交作業 ./bin/spark-submit查看全部
-
Hadoop應用場景: 離線處理,時效性要求不高的場景:Hadoop中間數據落到硬盤上,導致Hadoop處理大數據時,時效性不高,時間在幾分鐘到幾小時不等,但數據可以存儲。 Spark應用場景: 時效性要求高的場景和機器學習:Spark基于內存,中間數據多在內存中,數據處理塊,但Spark不具備hdfs存儲功能,需借助hdfs查看全部
-
spark歷史:伯克利實驗室研究項目,基于Hadoop的Mapreduce機制,引入內存管理機制,提高了迭代式計算和交互式中的效率。 spark組件: spark core:spark基本功能,包括任務調度,內存管理,容錯機制 內部定義了RDDs(彈性分布式數據集),提供多個APIs調用,為其他組件提供底層服務 spark sql:spark處理結構化數據的庫,類似Hive SQL,MySql,主要為企業提供報表統計 spark streaming:實時數據流處理組件,類似Storm,提供API操作實時流數據,企業中用來從Kafka中接收數據做實時統計 Mlib:機器學習功能包,包括聚類,回歸,模型評估和數據導入。同時支持集群平臺上的橫向擴展 Graphx:處理圖的庫,并進行圖的并行計算 Cluster Manager是:spark自帶的集群管理 Spark緊密集成的優點: spark底層優化,基于spark底層的組件也得到相應的優化,緊密集成節省了組件的部署,測試時間查看全部
-
快速:秒和分級別,相比hadoop的分和時 通用:應用場景多 快速: 1、擴充hadoop的Mapreduce計算模型 2、基于內存計算章節 通用: 1、容納其他分布式系統功能,具有批計算,迭代式計算,交互查詢和流處理 2、高度開發,提供多yu8yan的API,具有豐富的內置庫查看全部
-
Spark是Scala寫的,運行再jvm上的,運行環境java7以上查看全部
-
RDD 基本操作 Transformation(轉換) val lines = sc.parallelize(Array("hello","spark","spark","hello","!")) lines.freach(println) lines.map(workd=>(word,1)) 每一個元素+1 filter() lines.filter(world=>word.constains("hello")) flatMap() 壓扁,返回一個新的Rdd查看全部
舉報
0/150
提交
取消