-
scala的匿名函數和類型推斷
lines.filter(line=》line。contains(“world”))
定義一個匿名函數,接受一個參數line,
使用line這個string類型變量上的contains方法,并且返回結果。
line的類型不許指定,能夠推斷出來。
查看全部 -
scala聲明變量的例子,val和var
查看全部 -
scala的基礎知識,
scala的變量聲明:
????在scala中創建變量的時候,必須使用val或者var
val,變量值不可修改,一旦分配不能重新指向別的值
var,分配后,可以指向類型相同的值。
查看全部 -
rdds的創建方法,
加載外部數據集。
val rddtext=sc。textfile(“hellospark。txt”)
查看全部 -
輸出rdd個數,rdd.count()
//測試用
遍歷變量并打印,rdd.foreach(print)
rdd.foreach(println)
查看全部 -
rdds的創建方法,
把一個存在的集合傳給sparkcontext的parallelize()方法,測試用
val rdd= sc.parallelize(Array(1,2,2,4),4)
第一個參數:待并行化處理的集合,
第二個參數:分區個數。
查看全部 -
RDDs介紹,
一個rdd是一個不可改變的分布式集合對象。
spark中,所有的計算都是通過rdds的創建,轉換,操作完成的。
一個rdd內部由許多partitions(分片)組成。
查看全部 -
RDDs????介紹
resilient distributed datasets(彈性分布式數據集,簡寫RDDs)
這些rdds,并行的分布在整個集群中。
rdds是spark分發數據和計算的基礎抽象類。
查看全部 -
RDDs介紹,sparkcontext,
集群的連接
在shell中sparkcontext自動創建好,就是sc
查看全部 -
RDDs介紹,定義和操作
節點,executors。
查看全部 -
可以看到spark集群上的wordcount程序在跑,是4040端口,jobs。
查看全部 -
用 rz -be命令可以上傳一個本地文件?
查看全部 -
詳細的集群啟動操作,相關的參數
查看全部 -
開發完spark程序后,啟動集群:
啟動master? ./sbin/start-master.sh
啟動worker? ./bin/spark-class
提交作業? ? ./bin/spark-submit
查看全部 -
如何添加jar包,有兩種選擇方式
查看全部
舉報