我有500G的數據,分別存儲在機器A、B上,為了快速分析數據,我使用A,B,C,D四臺機器做了一個hadoop集群。A是master。請問我是否需要將這500G的數據先上傳到hadoop中?
1 回答

蕪湖不蕪
TA貢獻1796條經驗 獲得超7個贊
是必須把這500G上傳到你Hadoop的文件系統(HDFS)中
HDFS中,默認是會存儲3份(為了數據高可用和就近訪問)的,也就是會在你的BCD三個節點中共占用1500G空間,你可以手工設置冗余的份數。你通過hdfs的命令只看到一個500G的文件,實際上它們被拆成64m大小的塊了(塊大小也可以設),每塊都有3份
最后,再次建議你找相關的文檔閱讀、實踐,反復鉆研了百思不得其解的問題再來求助。你要做項目的,這點學習成本是應該付出的。
你這一下就發了兩個這么入門級的問題,雖然我都耐心回答了,但對你對我效率都太低了。
- 1 回答
- 0 關注
- 212 瀏覽
添加回答
舉報
0/150
提交
取消