已解決430363個問題，去搜搜看，總會有你想問的

過濾pyspark DataFrame，其中行在另一個DataFrame的范圍內

首頁猿問過濾pyspark...

過濾pyspark DataFrame，其中行在另一個DataFrame的范圍內

Python

料青山看我應如是 2021-09-25 22:06:45

我想從一個 DataFrame ( df1) 中檢索所有行，使其id在id另一個 DataFrame ( df2)列中的任何值的 +- 10 以內。例子：df1.show()#+-----+---+#| word| id|#+-----+---+#|apple| 10|#| cat| 30|#+-----+---+ df2.show()#+----+---+#|word| id|#+----+---+#|some| 50|#|jeff| 3|#| etc|100|#+----+---+預期結果：+-----+---+| word| id|+-----+---+|apple| 10|+-----+---+這是因為"apple"在 10 以內"jeff"。如您所見，如果idindf1滿足任何idin的條件，則行是好的df2。兩個 DataFrame 的長度也不一定相同。我已經很清楚如何為精確匹配做類似 anisin或 an 的事情antijoin，但我不清楚這個更寬松的情況。編輯：我的一個新想法是，如果沒有預先構建或干凈的方法來做到這一點，那么如果它們是可并行的，則可能支持基于已定義函數的復雜過濾。如果我找到朝那個方向的方法，我將開始沿著那條谷歌路徑進行更新。編輯：到目前為止，我偶然發現了udf函數，但我還沒有設法讓它工作。我想我需要讓它以某種方式接受一列而不是單個數字。這是我到目前為止所擁有的..columns = ['word', 'id']vals = [ ("apple",10), ("cat",30)]df1 = sqlContext.createDataFrame(vals, columns)vals = [ ("some",50), ("jeff",3), ("etc",100)]df2 = sqlContext.createDataFrame(vals, columns)def inRange(id1,id2,delta): id1 = int(id1) id2 = int(id2) return id1>=id2-delta and id1<=id2+deltainRangeUDF = udf(inRange,BooleanType())df1.filter(inRangeUDF(df1.id,df2.id, 10)).show()這當前拋出錯誤TypeError: Invalid argument, not a string or column: 10 of type <class 'int'>. For column literals, use 'lit', 'array', 'struct' or 'create_map' function.

查看完整描述

1 回答

1 回答
0 關注
412 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

過濾pyspark DataFrame，其中行在另一個DataFrame的范圍內

過濾pyspark DataFrame，其中行在另一個DataFrame的范圍內

1 回答

添加回答

過濾pyspark DataFrame，其中行在另一個DataFrame的范圍內