亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

Yarn Client模式下啟動Spark的配置問題

標簽:
Spark

由于YARN client模式对用户不直接暴露用于提交YARN程序的辅助程序,因此许多参数是通过环境变量来设置的,可以在spark-env.sh中进行如下配置:

webp

spark-env.sh

这是我的spark-env.sh里面进行的相关配置,对于启动Spark最关键的前三项设置。

HADOOP_HOME:设置hadoop的安装目录;

HADOOP_CONF_DIR:设置hadoop配置文件的目录;

YARN_CONF_DIR:设置yarn配置文件的目录,同上;

在我通过bin/spark-submit --master yarn-client.....提交我的应用程序时,出现了如下诊断错误,导致应用程序状态失败,异常退出:

webp

Diagnostics

经过查找资料和配置分析, 找到了问题的根源。从诊断报告可以看出主要是container的虚拟内存的使用量超出的原因,可以通过(1)关闭虚拟内存使用检查(2)增加虚拟内存与物理内存的比例值。具体参数在yarn-site.xml中完成:

5c1aef480001032d06900137.jpg

yarn-site.xml

将修改后的配置文件发送给集群中的各个节点,重启集群后,发现可以成功通过yarn-client模式启动spark。

成功提交作业后,HDFS的${yarn.app.mapreduce.am.staging-dir}/${username}/.sparkStaging下面,就会产生两个jar包,一个是spark-assembly-*.jar,另一个是提交执行的jar包:

5c1aef49000176b506900124.jpg

上传jar包到HDFS

作业执行完毕之后,所在目录的jar包会自动被删除,可以通过在spark-defaults.conf中设置保留jar包:

webp

spark-defaults.conf



作者:ZyZhu
链接:https://www.jianshu.com/p/87329cdf7d84


點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消