亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

請問老師,hadoop上運行的時候,沒有對map的結果進行sort,為什么會跑成功?

在Linux上運行map.py和reduce.py的時候,需要對map.py的結果進行|sort -k1,1| 排序,如果不排序則reduce.py運行的結果不正確;

但是在hadoop上運行的時候,沒有排序這個操作,但是我看老師視頻里的是運行成功的,我運行失敗了,不知道是不是沒有排序的問題。

跪求解答

正在回答

1 回答

一個MapReduce作業由Map階段和Reduce階段兩部分組成,這兩階段會對數據排序,從這個意義上說,MapReduce框架本質就是一個Distributed Sort。在Map階段,Map Task會在本地磁盤輸出一個按照key排序(采用的是快速排序)的文件(中間可能產生多個文件,但最終會合并成一個),在Reduce階段,每個Reduce Task會對收到的數據排序,這樣,數據便按照Key分成了若干組,之后以組為單位交給reduce()處理。很多人的誤解在Map階段,如果不使用Combiner便不會排序,這是錯誤的,不管你用不用Combiner,Map Task均會對產生的數據排序(如果沒有Reduce Task,則不會排序, 實際上Map階段的排序就是為了減輕Reduce端排序負載)。由于這些排序是MapReduce自動完成的,用戶無法控制,因此,在hadoop 1.x中無法避免,也不可以關閉,但hadoop2.x是可以關閉的。?

2 回復 有任何疑惑可以回復我~

舉報

0/150
提交
取消

請問老師,hadoop上運行的時候,沒有對map的結果進行sort,為什么會跑成功?

我要回答 關注問題
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號