1 回答

TA貢獻1829條經驗 獲得超7個贊
contains()在連接條件中使用withleft_anti作為連接類型。
左反連接返回第一個表中與第二個表中不匹配的所有行。
df_a.show()
+-----+---------+
| word|frequency|
+-----+---------+
| git| 5|
|stack| 10|
|match| 15|
|other| 3|
+-----+---------+
df_b.show()
+-------------+-----------+
| word_1|frequency_1|
+-------------+-----------+
| github| 5|
| match| 2|
|stackoverflow| 10|
| b_entry| 7|
+-------------+-----------+
from pyspark.sql.functions import *
df_a.join(df_b, (df_b.word_1.contains(df_a.word)), "left_anti").show()
+-----+---------+
| word|frequency|
+-----+---------+
|other| 3|
+-----+---------+
添加回答
舉報