首頁手記 spark性能調優 ——...

spark性能調優 —— 為什么慢的總是“你”

標簽：

云計算大數據

Spark作业性能调优 —— 为什么慢的总是“你”

背景

业务高峰期，准实时（mini batch）数据处理作业的运行时间现有一些延迟，为了保证作业的SLA，必须及时对作业运行状况进行排查。

异常原因排查

作业层面

平台采用的是spark on yarn的部署方案，故直接通过spark作业的application master url进入spark application ui；
通过spark ui 查找运行变慢的stage；
进入对应的stage之后，通过Summary Metrics可以看出task运行时间差异很大，从task的Input Size来看，输入数据本身并不存在倾斜；

接下来，我们要重点分析“拖后腿”的task, 分析它们究竟遭遇了什么；
通过对Stage 229中的task按Duration排序，找到运行慢的tasks；通过排序结果我们可以很容易看出，慢的task运行的executor全部集中在224这台服务器上；

至此，我们初步结论是问题出现在224这台服务器上。

服务器层面

确认过是服务器的问题后，接下来就借助open-falcon查看机器的健康状况；
首先排查基本指标：

load

load.1min
load.5min
load 15min

cpu.idle
cpu.iowait
disk.io.util
network

net.if.out.errors
net.if.in.errors

到这里基本上已经定位出了，是由于机器的eth1网卡异常导致这台机器上的task运行变慢；
由于机器的配置是4块网卡做bond, 所以分配到该台服务器上的作业并不会报错，只是事先速度变慢。

解决方法

临时下线掉这台异常服务器上的NodeManager

${HADOOP_HOME}/bin/yarn-daemon.sh stop nodemanager1

下线后，作业运行时间恢复正常。

结论

在Hadoop等分布环境中底层服务器的健康状况对Spark、MR等分布式作业的运行效率有着举足轻重的影响，因此完善的底层服务器的监控，对于保障数据平台的SLA有着深远的意义。

致谢

感谢平台运维同事协助定位问题。

原文出处

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

慕仔4209126

手記
篇

粉絲

69

獲贊與收藏

305

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32261 361

網絡編程入門教程

20個小節 13305 251

Pandas 入門教程

25個小節 19926 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空