如何在MaxCompute上運行HadoopMR作業
1 回答

犯罪嫌疑人X
TA貢獻2080條經驗 獲得超4個贊
MaxCompute(原ODPS)有一套自己的MapReduce編程模型和接口,簡單說來,這套接口的輸入輸出都是MaxCompute中的Table,處理的數據是以Record為組織形式的,它可以很好地描述Table中的數據處理過程,然而與社區的Hadoop相比,編程接口差異較大。Hadoop用戶如果要將原來的Hadoop MR作業遷移到MaxCompute的MR執行,需要重寫MR的代碼,使用MaxCompute的接口進行編譯和調試,運行正常后再打成一個Jar包才能放到MaxCompute的平臺來運行。這個過程十分繁瑣,需要耗費很多的開發和測試人力。如果能夠完全不改或者少量地修改原來的Hadoop MR代碼就能在MaxCompute平臺上跑起來,將是一個比較理想的方式。
現在MaxCompute平臺提供了一個HadoopMR到MaxCompute MR的適配工具,已經在一定程度上實現了Hadoop MR作業的二進制級別的兼容,即用戶可以在不改代碼的情況下通過指定一些配置,就能將原來在Hadoop上運行的MR jar包拿過來直接跑在MaxCompute上。目前該插件處于測試階段,暫時還不能支持用戶自定義comparator和自定義key類型,下面將以WordCount程序為例,介紹一下這個插件的基本使用方式。
- 1 回答
- 0 關注
- 851 瀏覽
添加回答
舉報
0/150
提交
取消