首頁猿問如何使用OpenStack，Doc...

如何使用OpenStack，Docker和Spark打造一個云服務

Docker

寶慕林4294392 2019-05-03 21:08:54

如何使用OpenStack，Docker和Spark打造一個云服務從一項顛覆性的技術成果轉化并衍生出一整套社區體系，Docker在發展速度上打破了一個又一個歷史紀錄。然而，Docker項目在采納與普及方面表現出驚人態勢的同時，也給我們帶來了一系列疑問與困惑。在今天的文章中，我希望將注意力集中在朋友們最為關注的評論議題身上。隨著Docker項目在人氣方面的持續飆升，很快剛剛接觸這一新生事物的讀者在實踐過程中不禁產生了這樣的疑問：如果已經決定使用Docker，是否還有必要同時使用OpenStack？在給出自己的觀點之前，我打算首先就背景信息入手為各位進行講解，從而更為透徹地認清這個命題背后所隱藏的理論基礎。背景信息從最為簡單的構成形式出發，Docker實際上旨在提供一套能夠在共享式基礎設施之上對軟件工作負載進行管理的容器環境，但同時又確保不同負載之間彼此隔離且互不影響。

查看完整描述

2 回答

絕地無雙

TA貢獻1946條經驗獲得超4個贊

IBM中國研究院高級研究員陳冠誠主要從事Big Data on Cloud，大數據系統性能分析與優化方面的技術研發。負責和參與過SuperVessel超能云的大數據服務開發，Hadoop軟硬件協同優化，MapReduce性能分析與調優工具，高性能FPGA加速器在大數據平臺上應用等項目。在Supercomputing（SC），IEEE BigData等國際頂級會議和期刊上發表過多篇大數據數據處理技術相關的論文，并擁有八項大數據領域的技術專利。曾在《程序員》雜志分享過多篇分布式計算，大數據處理技術等方面的技術文章。以下為媒體針對陳冠誠的專訪：

問：首先請介紹下您自己，以及您在Spark 技術方面所做的工作。

陳冠誠：我是IBM中國研究院的高級研究員，大數據云方向的技術負責人。我們圍繞Spark主要做兩方面的事情：第一，在IBM研究院的SuperVessel公有云上開發和運維Spark as a Service大數據服務。第二，在OpenPOWER架構的服務器上做Spark的性能分析與優化。

問：您所在的企業是如何使用Spark 技術的？帶來了哪些好處？

陳冠誠：Spark作為新一代的大數據處理引擎主要帶來了兩方面好處：

相比于MapReduce在性能上得到了很大提升。

在一個統一的平臺上將批處理、SQL、流計算、圖計算、機器學習算法等多種范式集中在一起，使混合計算變得更加的容易。

問：您認為Spark 技術最適用于哪些應用場景？

陳冠誠：大規模機器學習、圖計算、SQL等類型數據分析業務是非常適合使用Spark的。當然，在企業的技術選型過程中，并不是說因為Spark很火就一定要使用它。例如還有很多公司在用Impala做數據分析，一些公司在用Storm和Samaza做流計算，具體的技術選型應該根據自己的業務場景，人員技能等多方面因素來做綜合考量。

問：企業在應用Spark 技術時，需要做哪些改變嗎？企業如果想快速應用Spark 應該如何去做？

陳冠誠：企業想要擁抱Spark技術，首先需要技術人員改變。是否有給力的Spark人才會是企業能否成功應用Spark最重要的因素。多參與Spark社區的討論，參加Spark Meetup，給upstrEAM貢獻代碼都是很好的切入方式。如果個人開發者想快速上手Spark，可以考慮使用SuperVessel免費的Spark公有云服務，它能快速創建一個Spark集群供大家使用。

問：您所在的企業在應用Spark 技術時遇到了哪些問題？是如何解決的？

陳冠誠：我們在對Spark進行性能調優時遇到很多問題。例如JVM GC的性能瓶頸、序列化反序列化的開銷、多進程好還是多線程好等等。在遇到這些問題的時候，最好的方法是做好Profiling，準確找到性能瓶頸，再去調整相關的參數去優化這些性能瓶頸。

另一方面，我們發現如果將Spark部署在云環境里（例如OpenStack管理的Docker Container）時，它的性能特征和在物理機上部署又會有很大的不同，目前我們還在繼續這方面的工作，希望以后能有機會跟大家繼續分享。

問：作為當前流行的大數據處理技術，您認為Spark 還有哪些方面需要改進？

陳冠誠：在與OpenStack這樣的云操作系統的集成上，Spark還是有很多工作可以做的。例如與Docker Container更好的集成，對Swift對象存儲的性能優化等等。

問：您在本次演講中將分享哪些話題？

陳冠誠：我將分享的話題是“基于OpenStack、Docker和Spark打造SuperVessel大數據公有云”：

隨著Spark在2014年的蓬勃發展，Spark as a Service大數據服務正成為OpenStack生態系統中的新熱點。另一方面，Docker Container因為在提升云的資源利用率和生產效率方面的優勢而備受矚目。在IBM中國研究院為高校和技術愛好者打造的SuperVessel公有云中，我們使用OpenStack、Docker和Spark三項開源技術，在OpenPOWER服務器上打造了一個大數據公有云服務。本次演講我們會向大家介紹如何一步一步使用Spark、Docker和OpenStack打造一個大數據公有云，并分享我們在開發過程中遇到的問題和經驗教訓。

問：哪些聽眾最應該了解這些話題？您所分享的主題可以幫助聽眾解決哪些問題？

陳冠誠：對如何構造一個大數據云感興趣的同學應該會對這個話題感興趣，開發SuperVessel的Spark as a Service服務過程中我們所做的技術選型、架構設計以及解決的問題應該能對大家有所幫助

反對回復 2019-05-03

2 回答
0 關注
588 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何使用OpenStack，Docker和Spark打造一個云服務

如何使用OpenStack，Docker和Spark打造一個云服務

2 回答

添加回答

如何使用OpenStack，Docker和Spark打造一個云服務