2 回答

TA貢獻1946條經驗 獲得超4個贊
IBM中國研究院高級研究員陳冠誠主要從事Big Data on Cloud,大數據系統性能分析與優化方面的技術研發。負責和參與過SuperVessel超能云的大數據服務開發,Hadoop軟硬件協同優化,MapReduce性能分析與調優工具,高性能FPGA加速器在大數據平臺上應用等項目。在Supercomputing(SC),IEEE BigData等國際頂級會議和期刊上發表過多篇大數據數據處理技術相關的論文,并擁有八項大數據領域的技術專利。曾在《程序員》雜志分享過多篇分布式計算,大數據處理技術等方面的技術文章。以下為媒體針對陳冠誠的專訪:
問:首先請介紹下您自己,以及您在Spark 技術方面所做的工作。
陳冠誠:我是IBM中國研究院的高級研究員,大數據云方向的技術負責人。我們圍繞Spark主要做兩方面的事情:第一,在IBM研究院的SuperVessel公有云上開發和運維Spark as a Service大數據服務。第二,在OpenPOWER架構的服務器上做Spark的性能分析與優化。
問:您所在的企業是如何使用Spark 技術的?帶來了哪些好處?
陳冠誠:Spark作為新一代的大數據處理引擎主要帶來了兩方面好處:
相比于MapReduce在性能上得到了很大提升。
在一個統一的平臺上將批處理、SQL、流計算、圖計算、機器學習算法等多種范式集中在一起,使混合計算變得更加的容易。
問:您認為Spark 技術最適用于哪些應用場景?
陳冠誠:大規模機器學習、圖計算、SQL等類型數據分析業務是非常適合使用Spark的。當然,在企業的技術選型過程中,并不是說因為Spark很火就一定要使用它。例如還有很多公司在用Impala做數據分析,一些公司在用Storm和Samaza做流計算,具體的技術選型應該根據自己的業務場景,人員技能等多方面因素來做綜合考量。
問:企業在應用Spark 技術時,需要做哪些改變嗎?企業如果想快速應用Spark 應該如何去做?
陳冠誠:企業想要擁抱Spark技術,首先需要技術人員改變。是否有給力的Spark人才會是企業能否成功應用Spark最重要的因素。多參與Spark社區的討論,參加Spark Meetup,給upstrEAM貢獻代碼都是很好的切入方式。如果個人開發者想快速上手Spark,可以考慮使用SuperVessel免費的Spark公有云服務,它能快速創建一個Spark集群供大家使用。
問:您所在的企業在應用Spark 技術時遇到了哪些問題?是如何解決的?
陳冠誠:我們在對Spark進行性能調優時遇到很多問題。例如JVM GC的性能瓶頸、序列化反序列化的開銷、多進程好還是多線程好等等。在遇到這些問題的時候,最好的方法是做好Profiling,準確找到性能瓶頸,再去調整相關的參數去優化這些性能瓶頸。
另一方面,我們發現如果將Spark部署在云環境里(例如OpenStack管理的Docker Container)時,它的性能特征和在物理機上部署又會有很大的不同,目前我們還在繼續這方面的工作,希望以后能有機會跟大家繼續分享。
問:作為當前流行的大數據處理技術,您認為Spark 還有哪些方面需要改進?
陳冠誠:在與OpenStack這樣的云操作系統的集成上,Spark還是有很多工作可以做的。例如與Docker Container更好的集成,對Swift對象存儲的性能優化等等。
問:您在本次演講中將分享哪些話題?
陳冠誠:我將分享的話題是“基于OpenStack、Docker和Spark打造SuperVessel大數據公有云”:
隨著Spark在2014年的蓬勃發展,Spark as a Service大數據服務正成為OpenStack生態系統中的新熱點。另一方面,Docker Container因為在提升云的資源利用率和生產效率方面的優勢而備受矚目。在IBM中國研究院為高校和技術愛好者打造的SuperVessel公有云中,我們使用OpenStack、Docker和Spark三項開源技術,在OpenPOWER服務器上打造了一個大數據公有云服務。本次演講我們會向大家介紹如何一步一步使用Spark、Docker和OpenStack打造一個大數據公有云,并分享我們在開發過程中遇到的問題和經驗教訓。
問:哪些聽眾最應該了解這些話題?您所分享的主題可以幫助聽眾解決哪些問題?
陳冠誠:對如何構造一個大數據云感興趣的同學應該會對這個話題感興趣,開發SuperVessel的Spark as a Service服務過程中我們所做的技術選型、架構設計以及解決的問題應該能對大家有所幫助
- 2 回答
- 0 關注
- 588 瀏覽
添加回答
舉報