藍色和綠色是兩種不同的key值,為什么會進到同一個parition (2-3 Map-Shuffle-Reduce)
2:04老師說假定文件中只有3種不同的key值(分別是藍色、綠色、黃色)
2:37又說所有相同key值的數據都會匯聚到一個partition
那么藍色和綠色這兩種不同的key值,為什么會進到一個parition中呢?
老師,這個地方您是不是沒將清楚呢?
2:04老師說假定文件中只有3種不同的key值(分別是藍色、綠色、黃色)
2:37又說所有相同key值的數據都會匯聚到一個partition
那么藍色和綠色這兩種不同的key值,為什么會進到一個parition中呢?
老師,這個地方您是不是沒將清楚呢?
2018-10-07
舉報
2018-10-15
因為老師的例子種reduce的partition只有兩個,輸入有3個key,所以其中必須有兩個key落到同一個partition內。
所有相同的key匯聚到一個partition,沒毛病。所有藍色的key都在一個partition內,所有綠色的key都在一個partition內,所有黃色的也一樣。只是可能有多個key公用一個partition而已。
為什么藍色和綠色的兩個key會進入到一個partition呢,這個要看具體的key的值和shuffer算法。比如:藍色key=1,綠色key=3,黃色key=2,shuffer算法是根據partition數量(2)求模運算,那么綠色和藍色就分到同一個partiton了阿。
不知道你明白沒?
2018-10-16
感謝兩位朋友的回答?。?!
2018-10-08
我理解的是同一個parition中的任務的數量可以自己進行設置,最大72的那個,這里面的設置數量為2,所以同時兩個任務進入同一個parition中,第三個無法容納所以進入一個新的。如果不對請進行糾正,謝謝