首頁手記 SparkSQL 調優

SparkSQL 調優

標簽：

Spark

对一些SparkSQL任务，可以通过缓存数据、调优参数、增加并行度提升性能

缓存数据
sqlContext.cacheTable("tableName")或dataFrame.cache()构建一个内存中的列格式缓存
使用sqlContext.uncacheTable("tableName")移除缓存

缓存设置
可以通过sqlContext.setConf或在SQL中运行SET key=value
setConf("spark.sql.inMemoryColumnarStorage.compressed","true") ，为每列自动选择压缩码
setConf("spark.sql.inMemoryColumnarStorage.batchSize","1000") ，列式缓存的批处理大小，大批量可以提升内存使用率和压缩了，但是缓存是会有溢出风险

调优参数

参数	默认值	解释
spark.sql.autoBroadcastJoinThreshold	10485760(10M)	Join操作时，要被广播的表的最大字节数，-1为禁止广播
spark.sql.tungsten.enabled	true	开启tungsten优化
spark.sql.shuffle.partitions	200	shuffle数据时，可用分区数
spark.sql.planner.externalSort	true	根据需要执行Sort溢出到磁盘上，否则在每个分区内存中

增加并行度
Spark采用内存列式存储，实际执行查询效率很高，相对而言数据加载阶段耗时较长，合理设置并行度提升文件加载效率

Spark的并行度指的是什么？
spark作业中，各个stage的task的数量，也就代表了spark作业在各个阶段stage的并行度

如何提高并行度？

作者：Alex90
链接：https://www.jianshu.com/p/048aa1cac43c

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

撒科打諢

移動開發工程師

手記
篇

粉絲

46

獲贊與收藏

145

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32210 359

網絡編程入門教程

20個小節 13298 250

Pandas 入門教程

25個小節 19918 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

SparkSQL 調優

閱讀免費教程