4 回答

TA貢獻1744條經驗 獲得超4個贊
解決問題的層面不一樣
首先,Hadoop和Apache Spark兩者都是大數據框架,但是各自存在的目的不盡相同。Hadoop實質上更多是一個分布式數據基礎設施: 它將巨大的數據集分派到一個由普通計算機組成的集群中的多個節點進行存儲,意味著您不需要購買和維護昂貴的服務器硬件。
同時,Hadoop還會索引和跟蹤這些數據,讓大數據處理和分析效率達到前所未有的高度。Spark,則是那么一個專門用來對那些分布式存儲的大數據進行處理的工具,它并不會進行分布式數據的存儲。
兩者可合可分
Hadoop除了提供為大家所共識的HDFS分布式數據存儲功能之外,還提供了叫做MapReduce的數據處理功能。所以這里我們完全可以拋開Spark,使用Hadoop自身的MapReduce來完成數據的處理。
相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,畢竟它沒有提供文件管理系統,所以,它必須和其他的分布式文件系統進行集成才能運作。這里我們可以選擇Hadoop的HDFS,也可以選擇其他的基于云的數據系統平臺。但Spark默認來說還是被用在Hadoop上面的,畢竟,大家都認為它們的結合是最好的。
希望能幫到你。

TA貢獻1906條經驗 獲得超3個贊
Spark:專為大規模數據處理而設計的快速通用的計算引擎,是一種與 Hadoop 相似的開源集群計算環境,擁有Hadoop MapReduce所具有的優點,Spark是MapReduce的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生態系統,以彌補MapReduce的不足。
Spark主要用于大數據的計算,而Hadoop以后主要用于大數據的存儲(比如HDFS、Hive、HBase等),以及資源調度(Yarn)。Spark+Hadoop,是目前大數據領域最熱門的組合。
添加回答
舉報