2 回答

TA貢獻12條經驗 獲得超0個贊
flink和spark都是apache 軟件基金會(ASF)旗下頂級項目,都是通用數據處理平臺。它們可以應用在很多的大數據應用和處理環境。兩者均可在不依賴于其他環境的情況下運行于standalone模式,或是運行在基于hadoop(YARN,HDFS)之上,由于它們均是運行于內存,所以他們表現的都比hadoop要好很多。
flink和spark的比較
數據處理
flink在批處理模式下處理數據,而Fink實時處理流數據?;鸹ㄌ幚頂祿K,稱為RDDS,而FLink可以實時處理行數據之后的行。因此,雖然最小的數據延遲總是在spark上存在,但spark卻不是這樣。
迭代
spark支持批處理中的數據迭代,但弗林克可以通過使用流式架構來對其數據進行迭代迭代。下面的圖像顯示了迭代處理是如何發生的。
內存管理
FLink可以自動適應不同的數據集,但spark需要手動優化和調整其作業到單個數據集。spark也進行手動分區和緩存。因此,期待一些延遲處理。
數據流
FLink在需要時能夠在數據處理上提供中間結果。spark遵循過程編程系統,FLink遵循分布式數據流方法。因此,每當需要中間結果時,廣播變量被用來將預先計算的結果分發給所有的工作者節點。

TA貢獻1735條經驗 獲得超5個贊
1、Spark在SQL上的優化,尤其是DataFrame到DataSet其實是借鑒的Flink的。Flink最初一開始對SQL支持得就更好。
2、Spark的cache in memory在Flink中是由框架自己判斷的,而不是用戶來指定的,因為Flink對數據的處理不像Spark以RDD為單位,就是一種細粒度的處理,對內存的規劃更好。
3、Flink原來用Java寫確實很難看,現在也在向Spark靠攏,Scala的支持也越來越好。不管怎么說,二者目前都是在相互吸收。
- 2 回答
- 0 關注
- 1282 瀏覽
添加回答
舉報