已解決430363個問題，去搜搜看，總會有你想問的

比較 PySpark 中的 3 列

首頁猿問比較 PySpark 中的 3 列

比較 PySpark 中的 3 列

Python

蝴蝶不菲 2023-01-04 10:20:07

我想比較 PySpark 中的 3 列（百分比總和為 100%）以創建一個新列，其中包含 3 列中最大值的列名，或者如果最大值不是唯一的，則包含列的名稱具有相同的值。我在這里看到了一些類似的例子，但當最大值不唯一時，它們不處理這種情況。下面是我的蠻力解決方案，但是它需要很長時間才能運行變得毫無用處：df\ .withColumn("MaxName", F.when( (col(A)>col(B)) & (col(A)>col(C)), "A")\ .when( (col(B)>col(A)) & (col(B)>col(C)), "B")\ .when( (col(C)>col(A)) & (col(C)>col(B)), "C")\ .when( (col(A)==col(B)) &\ (col(A)>col(C)) | (col(B)>col(C)), "AB")\ .when( (col(C)==col(B)) | (col(C)==col(A)) &\ (col(C)>col(B)) | (col(C)>col(A)), "CAB")\ .otherwise("ABC")有什么見解可以構建更高效的解決方案嗎？

查看完整描述

1 回答

隔江千里

TA貢獻1906條經驗獲得超10個贊

如果我理解正確，你可以比較greatest并返回列名，然后連接：示例：

輸入：

np.random.seed(111)

df = spark.createDataFrame(pd.DataFrame(np.random.randint(0,100,(5,5)),

columns=list('ABCDE')))

df.show()

+---+---+---+---+---+

| A| B| C| D| E|

+---+---+---+---+---+

| 84| 84| 84| 86| 19|

| 41| 66| 82| 40| 71|

| 57| 7| 12| 10| 65|

| 88| 28| 14| 34| 21|

| 54| 72| 37| 76| 58|

+---+---+---+---+---+

建議的解決方案：

import pyspark.sql.functions as F

cols = ['A','B','C']

df.withColumn("max_of_ABC",F.concat_ws("",

*[F.when(F.col(i) == F.greatest(*cols),i) for i in cols])).show()

+---+---+---+---+---+----------+

| A| B| C| D| E|max_of_ABC|

+---+---+---+---+---+----------+

| 84| 84| 84| 86| 19| ABC|

| 41| 66| 82| 40| 71| C|

| 57| 7| 12| 10| 65| A|

| 88| 28| 14| 34| 21| A|

| 54| 72| 37| 76| 58| B|

+---+---+---+---+---+----------+

反對回復 2023-01-04

1 回答
0 關注
136 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

比較 PySpark 中的 3 列

比較 PySpark 中的 3 列

1 回答

添加回答