在mapreduce中,每個reduce任務將其輸出寫入名為part-r-nnnnn的文件,其中nnnnn是與reduce任務關聯的分區ID。map / reduce是否合并這些文件?如果有,怎么樣?
3 回答

www說
TA貢獻1775條經驗 獲得超8個贊
不,這些文件不會被Hadoop合并。您獲得的文件數與reduce任務數相同。
如果您需要它作為下一個作業的輸入,那么不要擔心有單獨的文件。只需將整個目錄指定為下一個作業的輸入。
如果確實需要群集外的數據,那么我通常會在從群集中提取數據時將它們合并到接收端。
就是這樣的:
hadoop fs -cat /some/where/on/hdfs/job-output/part-r-* > TheCombinedResultOfTheJob.txt
添加回答
舉報
0/150
提交
取消