1 回答

TA貢獻1868條經驗 獲得超4個贊
不幸的是,spark 中沒有內置函數可以做到這一點。有一個使用的解決方案pivot,但您需要先“分解”數據框。它應該比基于聯合的解決方案快得多。
在 Scala 中,它會按如下方式進行。我在下面添加了一個 java 版本。
// scala
val cols = df.columns
.filter(_ != "names")
.map(n => struct(lit(n) as "c", col(n) as "v"))
val exploded_df = df.select(col("names"), explode(array(cols : _*)))
// java
Column[] cols = Arrays
.stream(df.columns())
.filter(x -> ! x.equals("names"))
.map(n -> struct(lit(n).alias("c"), col(n).alias("v")))
.toArray(Column[]::new);
Dataset<Row> exploded_df = df.select(col("names"), explode(array(cols)));
exploded_df.show();
+------+-------------+
| names| col|
+------+-------------+
| rho| [rho_0,1]|
| rho| [rho_1,0.89]|
| rho| [rho_2,0.66]|
| rho|[rho_3,0.074]|
|absRho| [rho_0,1]|
|absRho| [rho_1,0.89]|
|absRho| [rho_2,0.66]|
|absRho|[rho_3,0.074]|
| lag| [rho_0,0]|
| lag| [rho_1,1]|
| lag| [rho_2,2]|
| lag| [rho_3,3]|
+------+-------------+
基本上,我構建了一個數組列,其中包含由列名及其值組成的結構。然后,我使用 explode 函數來展平這個數組。從那里,我們可以pivot像往常一樣使用 ;-)
// scala and java
exploded_df
.groupBy(col("col.c"))
.pivot("names")
.agg(first(col("col.v")))
.orderBy("c")
.show();
+-----+------+---+-----+
| c|absRho|lag| rho|
+-----+------+---+-----+
|rho_0| 1| 0| 1|
|rho_1| 0.89| 1| 0.89|
|rho_2| 0.66| 2| 0.66|
|rho_3| 0.074| 3|0.074|
+-----+------+---+-----+
添加回答
舉報