亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

SPARK:了解合并方法?

SPARK:了解合并方法?

動漫人物 2023-03-17 15:17:03
我正在嘗試了解 spark 中的 coalesce 方法。我有一個JavaRDD<String>(由 16310 個字符串組成),我想將它保存在 233 個文件中。(一個文件有 70 個字符串)首先,我嘗試了trainDataFeatures.repartition(233).saveAsTextFile(outputPathTrainFeatures);這很好用,但我不想洗牌我的數據。所以我嘗試了:trainDataFeatures.coalesce(233, false).saveAsTextFile(outputPathTrainFeatures);在這里我只有 4 個輸出文件。沒有洗牌,但只有 4 個!??!這真的很煩人。也許有人可以幫我解決這個問題。
查看完整描述

1 回答

?
胡子哥哥

TA貢獻1825條經驗 獲得超6個贊

我認為這就是重點,也是coalesce和之間最大的區別repartition。

Repartition 會對數據進行全面洗牌,以便能夠創建這些額外的分區。Coalesce 在現有分區之間移動數據并避免創建新分區并避免完整的數據混洗。

基本上,coalesce 不會為您創建額外的分區這一事實是 coalesce 的一個特性。

與重新分區相同——由于完整的數據洗牌,它能夠以高效的方式工作。您可能不關心性能,只想增加分區數量而不進行洗牌 - 好吧,之前有人有過這個想法,這個問題在這里仍然懸而未決。


查看完整回答
反對 回復 2023-03-17
  • 1 回答
  • 0 關注
  • 83 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號