亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Spark - repartition()vs coalesce()

Spark - repartition()vs coalesce()

Spark - repartition()vs coalesce()根據Learning Spark的說法請記住,重新分區數據是一項相當昂貴的操作。Spark還有一個優化版本的repartition(),稱為coalesce(),它允許避免數據移動,但前提是你減少了RDD分區的數量。我得到的一個區別是,使用repartition()可以增加/減少分區數量,但是使用coalesce()時,只能減少分區數量。如果分區分布在多臺機器上并運行coalesce(),它如何避免數據移動?
查看完整描述

3 回答

?
茅侃侃

TA貢獻1842條經驗 獲得超22個贊

它避免了完全洗牌。如果已知數量正在減少,則執行程序可以安全地將數據保存在最小數量的分區上,僅將數據從額外節點移出到我們保留的節點上。

所以,它會是這樣的:

Node 1 = 1,2,3Node 2 = 4,5,6Node 3 = 7,8,9Node 4 = 10,11,12

然后coalesce下至2個分區:

Node 1 = 1,2,3 + (10,11,12)Node 3 = 7,8,9 + (4,5,6)

請注意,節點1和節點3不需要移動其原始數據。


查看完整回答
反對 回復 2019-07-25
  • 3 回答
  • 0 關注
  • 939 瀏覽

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號