1 回答

TA貢獻1842條經驗 獲得超21個贊
我的第一個建議是不要在 Java 中使用 RDD。Java 中的 RDD 比 Scala 中的要困難得多,它也是舊的 api。我建議改用 DataFrames。這些提供了不同數據源之間更清晰的接口以及自動優化和其他好處。
現在,如果您不能使用 DataFrames,您只需制作 CassandraJavaRDD,然后使用“withConnector”或“withReadConf”來更改讀取配置。
https://github.com/datastax/spark-cassandra-connector/blob/master/spark-cassandra-connector/src/main/java/com/datastax/spark/connector/japi/rdd/CassandraJavaRDD.java#L123-L129
就像是
val cluster2 = CassandraConnector eventsConnector =
CassandraConnector.apply(
sc.getConf()
.set("spark.cassandra.connection.host", "192.168.36.234"));
javaFunctions(sc).cassandraTable(ks, "test_table").withConnector(cluster2).collect()
}
不需要構建器,因為 RDD 本身有一個流暢的 API。由于寫入是在調用結束時立即發生的,因此它需要一個構建器。
添加回答
舉報