請問老師,hadoop上運行的時候,沒有對map的結果進行sort,為什么會跑成功?
在Linux上運行map.py和reduce.py的時候,需要對map.py的結果進行|sort -k1,1| 排序,如果不排序則reduce.py運行的結果不正確;
但是在hadoop上運行的時候,沒有排序這個操作,但是我看老師視頻里的是運行成功的,我運行失敗了,不知道是不是沒有排序的問題。
跪求解答
在Linux上運行map.py和reduce.py的時候,需要對map.py的結果進行|sort -k1,1| 排序,如果不排序則reduce.py運行的結果不正確;
但是在hadoop上運行的時候,沒有排序這個操作,但是我看老師視頻里的是運行成功的,我運行失敗了,不知道是不是沒有排序的問題。
跪求解答
2018-10-24
舉報
2018-10-28
一個MapReduce作業由Map階段和Reduce階段兩部分組成,這兩階段會對數據排序,從這個意義上說,MapReduce框架本質就是一個Distributed Sort。在Map階段,Map Task會在本地磁盤輸出一個按照key排序(采用的是快速排序)的文件(中間可能產生多個文件,但最終會合并成一個),在Reduce階段,每個Reduce Task會對收到的數據排序,這樣,數據便按照Key分成了若干組,之后以組為單位交給reduce()處理。很多人的誤解在Map階段,如果不使用Combiner便不會排序,這是錯誤的,不管你用不用Combiner,Map Task均會對產生的數據排序(如果沒有Reduce Task,則不會排序, 實際上Map階段的排序就是為了減輕Reduce端排序負載)。由于這些排序是MapReduce自動完成的,用戶無法控制,因此,在hadoop 1.x中無法避免,也不可以關閉,但hadoop2.x是可以關閉的。?