最贊回答 / qq_單純永遠_0
? ? ? ? ? ? ? ? ? ?? HBase ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Hive用途: ? ?? 彌補Hadoop的實時操作 ? ? ?? 減少并行計算編寫工作的批處理系統檢索方式:適用于檢索訪問 ? ? ? ? ? ? ? ? ? ? 適用于全表掃描存儲: ? ? ? 物理表 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 純邏輯表功能: ? ? ? HBase只負責組織文件 ? ? ? ? ?? Hive既要儲存文件又需要計算框架執行效...
2018-12-28
已采納回答 / 叁金
談一下我的感受吧,太多所謂的大數據工程師候選人,對于hadoop、hive、spark這些常用的大數據開源工具說的很6,但是java基礎薄弱(開發能力薄弱)。其實其他崗位和方向都一樣,hadoop、hive、spark如何使用,應屆生給個一兩個月都能學會。但是如何針對性的修改,優化就能看出真正的水平了。大數據不光涉及到后端開發,在你維護hadoop集群的過程中,你還屬于運維。不要想太多,just do it
2018-12-07
最贊回答 / Cybtron
一個MapReduce作業由Map階段和Reduce階段兩部分組成,這兩階段會對數據排序,從這個意義上說,MapReduce框架本質就是一個Distributed Sort。在Map階段,Map Task會在本地磁盤輸出一個按照key排序(采用的是快速排序)的文件(中間可能產生多個文件,但最終會合并成一個),在Reduce階段,每個Reduce Task會對收到的數據排序,這樣,數據便按照Key分成了若干組,之后以組為單位交給reduce()處理。很多人的誤解在Map階段,如果不使用Combiner便不會...
2018-10-24