首頁猿問創建自定義案例類的數據集時，為什么...

創建自定義案例類的數據集時，為什么“找不到存儲在數據集中的類型的編碼器”？

源碼算法與數據結構

紅顏莎娜 2019-11-30 15:13:03

使用Scala 2.11.8的Spark 2.0（最終版）。以下超級簡單代碼產生編譯錯誤Error:(17, 45) Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for serializing other types will be added in future releases.import org.apache.spark.sql.SparkSessioncase class SimpleTuple(id: Int, desc: String)object DatasetTest { val dataList = List( SimpleTuple(5, "abc"), SimpleTuple(6, "bcd") ) def main(args: Array[String]): Unit = { val sparkSession = SparkSession.builder. master("local") .appName("example") .getOrCreate() val dataset = sparkSession.createDataset(dataList) }}

查看完整描述

3 回答

千萬里不及你

TA貢獻1784條經驗獲得超9個贊

Spark Datasets需要Encoders即將存儲的數據類型。對于常見類型（原子，產品類型），有許多可用的預定義編碼器，但是您必須首先從中導入這些編碼器SparkSession.implicits才能使其工作：

val sparkSession: SparkSession = ???

import sparkSession.implicits._

val dataset = sparkSession.createDataset(dataList)

或者，您可以直接提供一個明確的

import org.apache.spark.sql.{Encoder, Encoders}

val dataset = sparkSession.createDataset(dataList)(Encoders.product[SimpleTuple])

或隱式

implicit val enc: Encoder[SimpleTuple] = Encoders.product[SimpleTuple]

val dataset = sparkSession.createDataset(dataList)

Encoder 用于存儲的類型。

請注意，Enocders還提供了一些Encoders針對原子類型的預定義，Encoders對于復雜的原子類型，可以使用進行預定義ExpressionEncoder。

進一步閱讀：

對于內置編碼器未涵蓋的自定義對象，請參見如何在數據集中存儲自定義對象？

對于Row對象，您必須在嘗試將數據框行映射到更新的行時Encoder明確提供如編碼器錯誤所示的對象

反對回復 2019-11-30

偶然的你

TA貢獻1841條經驗獲得超3個贊

我會用我自己的問題的答案來澄清，如果目標是定義一個簡單的文字SparkData框架，而不是使用Scala元組和隱式轉換，則更簡單的方法是像這樣直接使用Spark API：

import org.apache.spark.sql._

import org.apache.spark.sql.types._

import scala.collection.JavaConverters._

val simpleSchema = StructType(

StructField("a", StringType) ::

StructField("b", IntegerType) ::

StructField("c", IntegerType) ::

StructField("d", IntegerType) ::

StructField("e", IntegerType) :: Nil)

val data = List(

Row("001", 1, 0, 3, 4),

Row("001", 3, 4, 1, 7),

Row("001", null, 0, 6, 4),

Row("003", 1, 4, 5, 7),

Row("003", 5, 4, null, 2),

Row("003", 4, null, 9, 2),

Row("003", 2, 3, 0, 1)

)

val df = spark.createDataFrame(data.asJava, simpleSchema)

反對回復 2019-11-30

3 回答
0 關注
925 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

創建自定義案例類的數據集時，為什么“找不到存儲在數據集中的類型的編碼器”？

創建自定義案例類的數據集時，為什么“找不到存儲在數據集中的類型的編碼器”？

3 回答

添加回答

創建自定義案例類的數據集時，為什么“找不到存儲在數據集中的類型的編碼器”？

創建自定義案例類的數據集時，為什么“找不到存儲在數據集中的類型的編碼器”？