我正在嘗試了解 spark 中的 coalesce 方法。我有一個JavaRDD<String>(由 16310 個字符串組成),我想將它保存在 233 個文件中。(一個文件有 70 個字符串)首先,我嘗試了trainDataFeatures.repartition(233).saveAsTextFile(outputPathTrainFeatures);這很好用,但我不想洗牌我的數據。所以我嘗試了:trainDataFeatures.coalesce(233, false).saveAsTextFile(outputPathTrainFeatures);在這里我只有 4 個輸出文件。沒有洗牌,但只有 4 個!??!這真的很煩人。也許有人可以幫我解決這個問題。
添加回答
舉報
0/150
提交
取消