Spark - repartition()vs coalesce()根據Learning Spark的說法請記住,重新分區數據是一項相當昂貴的操作。Spark還有一個優化版本的repartition(),稱為coalesce(),它允許避免數據移動,但前提是你減少了RDD分區的數量。我得到的一個區別是,使用repartition()可以增加/減少分區數量,但是使用coalesce()時,只能減少分區數量。如果分區分布在多臺機器上并運行coalesce(),它如何避免數據移動?
Spark - repartition()vs coalesce()
慕的地8271018
2019-07-25 19:37:29
