首頁手記 Spark操作Hive分區表

Spark操作Hive分區表

標簽：

Spark

我的原创地址：https://dongkelun.com/2018/12/04/sparkHivePatition/

前言

前面学习总结了Hive分区表，现在学习总结一下Spark如何操作Hive分区表，包括利用Spark DataFrame创建Hive的分区表和Spark向已经存在Hive分区表里插入数据，并记录一下遇到的问题以及如何解决。

1、Spark创建分区表

只写主要代码，完整代码见附录

val data = Array(("001", "张三", 21, "2018"), ("002", "李四", 18, "2017"))val df = spark.createDataFrame(data).toDF("id", "name", "age", "year")//可以将append改为overwrite，这样如果表已存在会删掉之前的表，新建表df.write.mode("append").partitionBy("year").saveAsTable("new_test_partition")

然后在Hive命令行里看一下,新建的表是否有分区字段year
用命令

desc new_test_partition;

或

show create table new_test_partition;

根据下面的结果可以看到新建的表确实有分区字段year

hive> desc new_test_partition;
OK
id                      string                                      
name                    string                                      
age                     int                                         
year                    string                                      
         
# Partition Information      
# col_name              data_type               comment             
         year                    string                                      Time taken: 0.432 seconds, Fetched: 9 row(s)

2、向已存在的表插入数据

2.1 Spark创建的分区表

这种情况其实和建表语句一样就可以了
不需要开启动态分区

df.write.mode("append").partitionBy("year").saveAsTable("new_test_partition")

当然也有其他方式插入数据，会在后面讲到。

2.2 在Hive命令行创建的表

这里主要指和Spark创建的表的文件格式不一样，Spark默认的文件格式为PARQUET，为在命令行Hive默认的文件格式为TEXTFILE，这种区别，也导致了异常的出现。
需要开启动态分区
不开启会有异常：

Exception in thread "main" org.apache.spark.SparkException: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict

2.2.1 建表

用

2.2.3 解决办法

用fomat指定格式

df.write.mode("append").format("Hive").partitionBy("year").saveAsTable("test_partition")

2.3 其他方法

df.createOrReplaceTempView("temp_table")
sql("insert into test_partition select * from temp_table")
df.write.insertInto("test_partition")

其中insertInto不需要也不能将df进行partitionBy，否则会抛出异常

df.write.partitionBy("year").insertInto("test_partition")Exception in thread "main" org.apache.spark.sql.AnalysisException: insertInto() can't be used together with partitionBy(). Partition columns have already be defined for the table. It is not necessary to use partitionBy().;

3、完整代码

package com.dkl.blog.spark.hiveimport org.apache.spark.sql.SparkSession/**
 * 博客：Spark操作Hive分区表
 * https://dongkelun.com/2018/12/04/sparkHivePatition/
 *
 */object SparkHivePatition {  def main(args: Array[String]): Unit = {    val spark = SparkSession
      .builder()
      .appName("SparkHive")
      .master("local")
      .config("spark.sql.parquet.writeLegacyFormat", true)
      .enableHiveSupport()
      .getOrCreate()    import spark.sql    val data = Array(("001", "张三", 21, "2018"), ("002", "李四", 18, "2017"))    val df = spark.createDataFrame(data).toDF("id", "name", "age", "year")    //创建临时表
    df.createOrReplaceTempView("temp_table")    //切换hive的数据库
    sql("use dkl")    //    1、创建分区表，可以将append改为overwrite，这样如果表已存在会删掉之前的表，新建表
    df.write.mode("append").partitionBy("year").saveAsTable("new_test_partition")    //2、向Spark创建的分区表写入数据
    df.write.mode("append").partitionBy("year").saveAsTable("new_test_partition")
    sql("insert into new_test_partition select * from temp_table")
    df.write.insertInto("new_test_partition")    //开启动态分区
    sql("set hive.exec.dynamic.partition.mode=nonstrict")    //3、向在Hive里用Sql创建的分区表写入数据，抛出异常
    //    df.write.mode("append").partitionBy("year").saveAsTable("test_partition")

    // 4、解决方法
    df.write.mode("append").format("Hive").partitionBy("year").saveAsTable("test_partition")

    sql("insert into test_partition select * from temp_table")
    df.write.insertInto("test_partition")    //这样会抛出异常
    //    df.write.partitionBy("year").insertInto("test_partition")

    spark.stop
  }
}

作者：董可伦
链接：https://www.jianshu.com/p/6542b1b2c3c3

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

三國紛爭

JAVA開發工程師

手記
篇

粉絲

51

獲贊與收藏

181

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32074 358

網絡編程入門教程

20個小節 13196 249

Pandas 入門教程

25個小節 19564 369

推薦

1

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

Spark操作Hive分區表

前言

1、Spark创建分区表

2、向已存在的表插入数据

2.1 Spark创建的分区表

2.2 在Hive命令行创建的表

2.2.1 建表

2.2.2 异常

2.2.3 解决办法

2.3 其他方法

3、完整代码

閱讀免費教程

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Spark操作Hive分區表

前言

1、Spark创建分区表

2、向已存在的表插入数据

2.1 Spark创建的分区表

2.2 在Hive命令行创建的表

2.2.1 建表

2.2.2 异常

2.2.3 解决办法

2.3 其他方法

3、完整代码

閱讀免費教程