亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

SparkSQL 調優

標簽:
Spark

对一些SparkSQL任务,可以通过缓存数据、调优参数、增加并行度提升性能

缓存数据
sqlContext.cacheTable("tableName")或dataFrame.cache()构建一个内存中的列格式缓存
使用sqlContext.uncacheTable("tableName")移除缓存

缓存设置
可以通过sqlContext.setConf或在SQL中运行SET key=value
setConf("spark.sql.inMemoryColumnarStorage.compressed","true") ,为每列自动选择压缩码
setConf("spark.sql.inMemoryColumnarStorage.batchSize","1000") ,列式缓存的批处理大小,大批量可以提升内存使用率和压缩了,但是缓存是会有溢出风险

调优参数

参数默认值解释
spark.sql.autoBroadcastJoinThreshold10485760(10M)Join操作时,要被广播的表的最大字节数,-1为禁止广播
spark.sql.tungsten.enabledtrue开启tungsten优化
spark.sql.shuffle.partitions200shuffle数据时,可用分区数
spark.sql.planner.externalSorttrue根据需要执行Sort溢出到磁盘上,否则在每个分区内存中

增加并行度
Spark采用内存列式存储,实际执行查询效率很高,相对而言数据加载阶段耗时较长,合理设置并行度提升文件加载效率

Spark的并行度指的是什么?
spark作业中,各个stage的task的数量,也就代表了spark作业在各个阶段stage的并行度

如何提高并行度?



作者:Alex90
链接:https://www.jianshu.com/p/048aa1cac43c


點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
移動開發工程師
手記
粉絲
46
獲贊與收藏
145

關注作者,訂閱最新文章

閱讀免費教程

  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消