亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

Apache Spark簡單介紹、安裝及使用

標簽:
Spark

Apache Spark 简介



Apache Spark是一个高速的通用型计算引擎,用来实现分布式的大规模数据的处理任务。
分布式的处理方式可以使以前单台计算机面对大规模数据时处理不了的情况成为可能。

Apache Spark安装及配置(Mac下Ubuntu虚拟机)



学习新东西最好是在虚拟机下操作,以免对现在的开发环境造成影响,我的系统是Mac OS,安装的是VirtualBox虚拟机,然后在虚拟机里安装的Ubuntu系统。
VirtualBox安装方法请查看教程:
YouTube: Install Ubuntu in Mac with Virtual Box
注意在安装过程中设置4GB的RAM和20GB的空间,否则会出现不够用的情况。

安装 Anaconda



Anaconda 是Python科学计算包的合集,在接下来的例子中,会用到其中的matplotlib用来生成一张柱状图。
下载地址:https://www.continuum.io/downloads
然后在Terminal中输入命令:

bash Anaconda2-4.1.1-Linux-x86_64.sh

安装 Java SDK



Spark运行在JVM上,所以还需要安装Java SDK:

$ sudo apt-get install software-properties-common
$ sudo add-apt-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java8-installer

设置 JAVA_HOME



打开.bashrc文件

gedit .bashrc

在.bashrc中添加如下设置:

JAVA_HOME=/usr/lib/jvm/java-8-oracleexport JAVA_HOME
PATH=$PATH:$JAVA_HOMEexport PATH

安装 Spark



去官网下载压缩包,下载地址 http://spark.apache.org/downloads.html
将安装包解压,命令如下:

$ tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
$ rm spark-2.0.0-bin-hadoop2.7.tgz

启用IPython Notebook



打开.bashrc文件

gedit .bashrc

在.bashrc中添加如下设置:

export PYSPARK_DRIVER_PYTHON=ipythonexport PYSPARK_DRIVER_PYTHON_OPTS=notebook

检查是否安装成功



重启Terminal,然后输入命令:

cd ~/spark-2.0.0-bin-hadoop2.7
./bin/pyspark

Apache Spark简单使用



打开Spark服务后,点击new - Notebooks - Python新建一个Notebook文件。
在这个小例子中,我们读取Spark文件夹下的NOTICE文件里的内容,然后统计词频,最后生成一张图表。示例很简单,直接贴出代码截图和最后的结果:

webp


这些内容是在学习  Spark for Python Developers 这本书过程中的随笔,接下来还会继续分享和Spark相关的知识,有兴趣的朋友欢迎关注本博客,也欢迎大家留言进行讨论。



作者:杨存村長
链接:https://www.jianshu.com/p/8144ee73ac83


點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消