首頁猿問 Spark：從 ColumnA 到...

Spark：從 ColumnA 到 ColumnB 的字符串操作

Python

ABOUTYOU 2023-06-20 16:31:54

查看完整描述

3 回答

Cats萌萌

TA貢獻1805條經驗獲得超9個贊

你可以用'|'分割你的專欄像下面導入 spark.implicits._

val df = mainDf.select("Column1","Column2").map(x => {

val s1 = x.getAsString(0).replaceAll("^.*3_","").split("|");

val s2 = x.getAsString(1).replaceAll("^.*3_","").split("|");

(x.getAsString(0),x.getAsString(1),s2.diff(s1).union(s1.diff(s2)))

}

).toDF("Column1","Column2","Column3")

反對回復 2023-06-20

精慕HU

TA貢獻1845條經驗獲得超8個贊

你也可以通過regexp_replace和udf來達到你的目的。

regexp_replace 替換“|” 用“，”和“。* 3_”用“”
udf從column2和column1獲取column3的值

val df2 =df1.columns.foldLeft(df) { (memoDF, colName) =>

memoDF.withColumn(

colName,

regexp_replace(regexp_replace(col(colName), "\\|", ","),".*3_",""))}

val diff_udf = udf { ( a: String, b: String) => (a.split(",") diff b.split(",")).mkString(",") }

df2.withColumn("column3", diff_udf(col("column2"), col("column1"))).show(false)

輸出：

+-------------------------+--------------------------------------+------------+

|column1 |column2 |column3 |

+-------------------------+--------------------------------------+------------+

|APPLE,BANANA,GUAVA,ORANGE|APPLE,BANANA,GUAVA,GRAPES,ORANGE,BERRY|GRAPES,BERRY|

+-------------------------+--------------------------------------+------------+

反對回復 2023-06-20

慕村9548890

TA貢獻1884條經驗獲得超4個贊

對于Spark >= 2.4

您可以使用array_except

import spark.implicits._

val df = Seq(

).toDF("column1", "column2")

val remove = df.columns.map(column => split(col(column), "3_").getItem(1).as(column))

val resultDF = df.select(remove: _*)

.withColumn("column1", split($"column1", "\\|"))

.withColumn("column2", split($"column2", "\\|"))

.withColumn("column3", array_except($"column2", $"column1"))

.withColumn("column1", array_except($"column1", $"column3"))

.withColumn("column2", array_except($"column2", $"column3"))

val convertToString = resultDF.columns.map(column => concat_ws("|", col(column)).as(column))

resultDF.select(convertToString: _*).show(false)

輸出：

+-------------------------+-------------------------+------------+

|column1 |column2 |column3 |

+-------------------------+-------------------------+------------+

+-------------------------+-------------------------+------------+

反對回復 2023-06-20

3 回答
0 關注
209 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Spark：從 ColumnA 到 ColumnB 的字符串操作

Spark：從 ColumnA 到 ColumnB 的字符串操作

3 回答

添加回答