hadoop中實現join的方式有哪些
1 回答

慕尼黑5688855
TA貢獻1848條經驗 獲得超2個贊
reduce side join是一種最簡單的join方式,其主要思想如下:
在map階段,map函數同時讀取兩個文件File1和File2,為了區分兩種來源的key/value數據對,對每條數據打一個標簽(tag),比如:tag=0表示來自文件File1,tag=2表示來自文件File2。即:map階段的主要任務是對不同文件中的數據打標簽。
在reduce階段,reduce函數獲取key相同的來自File1和File2文件的value list, 然后對于同一個key,對File1和File2中的數據進行join(笛卡爾乘積)。即:reduce階段進行實際的連接操作。
REF:hadoop join之reduce side join
- 1 回答
- 0 關注
- 868 瀏覽
添加回答
舉報
0/150
提交
取消