亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

Spark從零開始

Terby JAVA開發工程師
難度初級
時長 2小時18分
學習人數
綜合評分9.80
56人評價 查看評價
9.8 內容實用
9.7 簡潔易懂
9.9 邏輯清晰
  • Spark目錄:

    bin包含用來和spark交互的可執行文件,如spark shell

    core, streaming ,python,包含主要組件的源代碼

    examples包含一些單機Spark job,可以研究和運行這些例子

    Spark的shell:

    Spark的shell使得能夠處理分布在集群上的數據

    Spark把數據加載到節點的內存中,因此,分布式處理可以在秒級完成。

    快速式迭代式計算,實時查詢、分析一般能夠在shell中完成

    spark提供了python shells和Scala shells

    python shells位于bin/pyspark

    scala shell位于 bin/spark-shell

    查看全部
    1 采集 收起 來源:spark安裝

    2018-07-13

  • WordCount程序

    查看全部
  • Scala項目。。

    查看全部
  • 版本版本版本

    查看全部
  • 版本不一樣,安裝報錯,標記下。

    查看全部
  • Spark安裝

    Spark運行環境:

    Spark是用Scala寫的,運行在JVM上,所以運行環境Java7+

    如果是用Python API,需要安裝Python 2.6+ 或者Python3.4+


    查看全部
    0 采集 收起 來源:spark安裝

    2018-07-12

  • 版本設置標記。

    查看全部
  • Spark和Hadoop的比較

    Hadoop應用場景:離線處理、對時效性要求不高,因為hadoop的中間數據在硬盤上

    Spark應用場景:時效性要求高的場景&機器學習

    兩者都是擁有完整的生態系統,每個組件都有其作用,各善其職;

    Spark不具有HDFS的存儲能力,要借助HDFS等持久化數據

    查看全部
  • Graphx:是處理圖的庫(例如,社交網絡圖),并進行圖的并行計算。

    像,spark streaming,Spark SQL一樣,他也繼承了RDD API

    他提供了各種圖的操作,和常用的圖算法

    Cluster Managers:集群管理,Spark自帶一個集群管理是一個單獨調度器。

    常見集群管理包括Hadoop YARN,apache Mesos

    查看全部
    0 采集 收起 來源:Spark生態介紹

    2018-07-12

  • Spark? SQL:

    是Spark處理結構化數據的庫,就像Hive SQL,Mysql一樣。

    應用場景,企業中用來做報表統計

    Spark Streaming:

    是實時數據流處理的組件,類似Storm

    Spark Streaming 提供了API來操作實時流數據

    應用場景,企業中用來從Kafka接收數據做實時統計

    MLlib:

    一個包含通用機器學習功能的包,Machine Learning lib。

    包含分類、聚類、回歸等,還包括模型評估和導入。

    MLlib提供的上面這些方法,都支持集群上的擴展

    應用場景:機器學習

    查看全部
    0 采集 收起 來源:Spark生態介紹

    2018-07-12

  • Spark Core:

    1. 包含了spark的基本功能,包含任務調度、內存管理、容錯機制等;

    2. 內部定義了RDDs(彈性分布式數據集)

    3. 提供了很多APIs來創建和操作這些RDDs

    4. 應用場景是為其他組件提供底層服務


    查看全部
    0 采集 收起 來源:Spark生態介紹

    2018-07-12

  • Spark的特點:

    1. 快速,擴充了流行的Mapreduce計算模型,比Hadoop快,基于內存計算,讀取速度快;

    2. 通用,容納了其他分布式系統擁有的功能:批處理、迭代式計算、交互查詢和流處理,方便維護;

    3. 高度開放,提供了python、java、scala、SQL的API和豐富的內置庫(Scala是spark的原生語言);和其他的大數據工具整合的很好,包括hadoop、kafka等


    查看全部
    0 采集 收起 來源:Spark簡介

    2018-07-12

  • scala項目初始化結構

    查看全部
  • hadoop 離線處理 實時性要求不高的場景,中間計算數據存儲在磁盤,處理時間分鐘-小時

    spark 即時處理 實時性要求高的場景,中間計算數據存儲在內存,處理時間秒-分鐘

    查看全部
  • 11
    查看全部
    0 采集 收起 來源:Spark簡介

    2018-06-13

舉報

0/150
提交
取消
課程須知
1、 簡單Linux的操作
老師告訴你能學到什么?
1、了解Spark到底是什么 2、了解Spark和Hadoop的區別 3、了解Spark的基礎知識和概念 4、掌握Spark RDD的基本操作和特性 5、掌握Spark程序的開發和部署流程

微信掃碼,參與3人拼團

微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

友情提示:

您好,此課程屬于遷移課程,您已購買該課程,無需重復購買,感謝您對慕課網的支持!