亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

Spark是否能替代Hive

標簽:
Spark

在实际生产环境中已经形成了离线以Hive为主,Spark为辅, 实时处理用Flink的大数据架构体系及Impala, Es,Kylin等应用查询引擎

但是有很多学习Spark的程序员普遍认为Spark必然会替代Hive成为新的一代大数据仓库标准

同时,培训市场也出现了Hive已经落后,学习大数据只要学习Spark相关言论

但结合实际工作的情况来看,这类说法和实际情况并不相符,本文针对数据仓库的几个重要特征做了对比,说明各种利弊,希望对大家有一定的帮助

希望后续的大家能够去积极了解一些数据仓库需要的配置组件及系统,避免人云亦云,面试的时候引起不必要的争议

Hive   VS    Spark


webp

 由上表可以看出,Spark不适合作为数据仓库主要有以下几点:

1)Spark本身没有自己的存储与meta库两种最核心的东西,需要依赖HDFS和Hive的相关功能,而社区的发展趋势也没有往这边开发的意思,故Spark是作为一个计算引擎的定位长期存在的;

2)RDD, DataSet、DataFrames的三种计算形式 由于计算过程中没有一个持久化的计算元数据管理导致后续对于数据血缘的解析难度过大,无法满足数据仓库调度对于数据体系依赖分析及元数据管理相关要求,故不能作为数据仓库的主要使用方式

3)SparkSql是最有潜力成为数据仓库的主要形式,但目前来说仍然是以Hive meta库作为元数据管理 hdfs作为数据存储,由于本身的sql解析器不如Hive,一般情况下是用Hive的sql解析器来替换本身的解析器。本质来说SparkSql只是作为hive的计算速度强化版使用

4)在cpu密集任务及复杂计算任务上,它的性能及稳定性远远比不上Hive

5)Spark在运行过程中经常会出现内存错误

再看Hive,拥有一套完整的Hadoop生态组件:

1)Sqoop支持RDS到Hive(HDFS)的互相同步

2)Flume支持日志采集到HDFS

3)拥有自己一套完整的meta库支持元数据管理

4)语言以sql为准,非常方便后续数据仓库的维护,比如数据血缘解析,过滤条件解析

5)Hive的稳定性是目前的Spark无法保证的,在数据仓库做分层设计的情况下,底层的稳定性要求会远高于速度(如果底层一个任务失败,可能导致上层的几千个任务无法执行)

 基于上面所说的,所以Spark替代Hive成为数据仓库的首选时间会比较漫长,而且随着Hive的sql执行引擎逐步优化后,Spark的优势会越来越低

就目前来说,SparkSql作为数据仓库上层做加快查询的定位相对合适点,并不适合作为整套数据仓库的尤其是需要强稳定性的底层数据调度查询



作者:大数据首席数据师
链接:https://www.jianshu.com/p/eabb9bcaee86


點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消