已解決430363個問題，去搜搜看，總會有你想問的

用pycharm導入的spark怎么啟動spark shell

關注

首頁猿問用pycharm導入的spark怎...

用pycharm導入的spark怎么啟動spark shell

Spark

牛魔王的故事 2018-10-29 05:00:06

用pycharm導入的spark怎么啟動spark shell

查看完整描述

1 回答

湖上湖

TA貢獻2003條經驗獲得超2個贊

cloudera manager裝好的spark,直接執行spark-shell進入命令行后，寫入如下語句：
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

會發現沒法執行通過，因為cm裝的原生的spark是不支持spark hql的，我們需要手動進行一些調整：
第一步，將編譯好的包含hive的JAR包上傳到hdfs上配置的默認的spark的sharelib目錄：/user/spark/share/lib
第二步：在你要運行spark-shell腳本的節點上的/opt/cloudera/parcels/CDH-5.3.0-1.cdh5.3.0.p0.30/lib/spark/lib/目錄下面，下載這個jar到這個目錄：hadoop fs -get hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar（具體路徑替換成你自己的）。然后這個目錄下面原來會有個軟鏈接spark-assembly.jar指向的是spark-assembly-1.2.0-cdh5.3.0-hadoop2.5.0-cdh5.3.0.jar，我們把這個軟鏈接刪除掉重新創建一個同名的軟鏈接：ln -s spark-assembly-with-hive-maven.jar spark-assembly.jar，指向我們剛下載下來的那個JAR包，這個JAR包會在啟動spark-shell腳本時裝載到driver program的classpath中去的，sparkContext也是在driver中創建出來的，所以需要將我們編譯的JAR包替換掉原來的spark-assembly.jar包，這樣在啟動spark-shell的時候，包含hive的spark-assembly就被裝載到classpath中去了。
第三步：在/opt/cloudera/parcels/CDH/lib/spark/conf/目錄下面創建一個hive-site.xml。/opt/cloudera/parcels/CDH/lib/spark/conf目錄是默認的spark的配置目錄，當然你可以修改默認配置目錄的位置。hive-site.xml內容如下：
<?xml version="1.0" encoding="UTF-8"?>


<configuration>
<property>
<name>hive.metastore.local</name>
<value>false</value>
</property>
<property>
<name>hive.metastore.uris</name>
<value>thrift://n1:9083</value>
</property>
<property>
<name>hive.metastore.client.socket.timeout</name>
<value>300</value>
</property>
<property>
<name>hive.metastore.warehouse.dir</name>
<value>/user/hive/warehouse</value>
</property>
</configuration>

第四步：修改/opt/cloudera/parcels/CDH/lib/spark/conf/spark-defaults.conf，添加一個屬性：spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar。這個是讓每個executor下載到本地然后裝載到自己的classpath下面去的，主要是用在yarn-cluster模式。local模式由于driver和executor是同一個進程所以沒關系。
以上完事之后，運行spark-shell,再輸入:
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)

應該就沒問題了。我們再執行一個語句驗證一下是不是連接的我們指定的hive元數據庫：
hiveContext.sql("show tables").take(10) //取前十個表看看

最后要重點說明一下這里的第二步第三步和第四步，如果是yarn-cluster模式的話，應該替換掉集群所有節點的spark-assembly.jar集群所有節點的spark conf目錄都需要添加hive-site.xml，每個節點spark-defaults.conf都需要添加spark.yarn.jar=hdfs://n1:8020/user/spark/share/lib/spark-assembly-with-hive-maven.jar?？梢詫憘€shell腳本來替換，不然手動一個一個節點去替換也是蠻累的。

反對回復 2018-11-09

1 回答
0 關注
1025 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

用pycharm導入的spark怎么啟動spark shell

用pycharm導入的spark怎么啟動spark shell

1 回答

添加回答