已解決430363個問題，去搜搜看，總會有你想問的

Spark - repartition（）vs coalesce（）

首頁猿問 Spark -...

Spark - repartition（）vs coalesce（）

源碼算法與數據結構

慕的地8271018 2019-07-25 19:37:29

Spark - repartition（）vs coalesce（）根據Learning Spark的說法請記住，重新分區數據是一項相當昂貴的操作。Spark還有一個優化版本的repartition（），稱為coalesce（），它允許避免數據移動，但前提是你減少了RDD分區的數量。我得到的一個區別是，使用repartition（）可以增加/減少分區數量，但是使用coalesce（）時，只能減少分區數量。如果分區分布在多臺機器上并運行coalesce（），它如何避免數據移動？

查看完整描述

3 回答

茅侃侃

TA貢獻1842條經驗獲得超22個贊

它避免了完全洗牌。如果已知數量正在減少，則執行程序可以安全地將數據保存在最小數量的分區上，僅將數據從額外節點移出到我們保留的節點上。

所以，它會是這樣的：

Node 1 = 1,2,3Node 2 = 4,5,6Node 3 = 7,8,9Node 4 = 10,11,12

然后coalesce下至2個分區：

Node 1 = 1,2,3 + (10,11,12)Node 3 = 7,8,9 + (4,5,6)

請注意，節點1和節點3不需要移動其原始數據。

反對回復 2019-07-25

3 回答
0 關注
939 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Spark - repartition（）vs coalesce（）

Spark - repartition（）vs coalesce（）

3 回答

添加回答