亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定

用spark從oracle導入數據到hive

標簽:
大數據

大概步骤:

连接oracle,创建一个dataframe用来接收从oracle里面读取的数据。

将dataframe的数据写入临时表。

用hiveContext.sql语句将数据写入hive里面。

这个程序其实对于学了spark的人来说很简单,直接上代码吧:

    package com.ctbri.cgs.oracle2Hive


    import org.apache.spark.sql.SparkSession

    import org.apache.spark.sql.types._

    import java.util.Properties

    import scala.collection.mutable.ArrayBuffer

    import org.apache.spark.sql.functions._


    object App {


      def main(args: Array[String]):Unit = {

      //创建一个sparkcontext对象,用enableHiveSupport获取了对HIVE的支持

            val spark = SparkSession

            .builder()

            .appName("Oracle2Hive")

            .master("local")

            .config("spark.port.maxRetries","128")

            .config("spark.sql.parquet.writeLegacyFormat",true)

            .enableHiveSupport()

            .getOrCreate()


            //连接oracle

            val jdbcDF = spark.read.format("jdbc").options(

            Map(

            "driver" -> "oracle.jdbc.driver.OracleDriver",

            "url" -> "url路径",

            "user" -> "username",

            "password" -> "password",

            "dbtable" -> "要导出的数据表名"

            )).load()


            //需要转换的列名

            val colName = ArrayBuffer[String]()

            val schema = jdbcDF.schema.foreach(s => {

              if (s.dataType.equals(DecimalType(38, 10)) || s.dataType.equals(DecimalType(4, 0))) {

                colName += s.name

              }

            })


            //字段类型转换

            var df_int = jdbcDF

            colName.foreach(name => {

              df_int = df_int.withColumn(name, col(name).cast(IntegerType))

            })


            //创建临时表

            jdbcDF.createOrReplaceTempView("records")


            spark.sql("use 库名")

            spark.sql("set hive.exec.dynamic.partition.mode=nonstrict")

            jdbcDF.write.mode("overwrite").saveAsTable("表名")

            }

    }

其中需要注意的就是,我第一次写的时候,没有进行字段类型的转换,导致数据可以导入,在hive里面也可以查看表属性,但是无法查出具体数据,原因就是spark导入的时候,将oracle的number类型转换成了decimal类型,导致无法查看,其他诸如data,char等都是成功的,进行一下类型转换就可以了。



作者:大数据首席数据师
链接:https://www.jianshu.com/p/761f934bbab2


點擊查看更多內容
TA 點贊

若覺得本文不錯,就分享一下吧!

評論

作者其他優質文章

正在加載中
算法工程師
手記
粉絲
41
獲贊與收藏
160

關注作者,訂閱最新文章

閱讀免費教程

  • 推薦
  • 評論
  • 收藏
  • 共同學習,寫下你的評論
感謝您的支持,我會繼續努力的~
掃碼打賞,你說多少就多少
贊賞金額會直接到老師賬戶
支付方式
打開微信掃一掃,即可進行掃碼打賞哦
今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與 放棄機會
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號

舉報

0/150
提交
取消