已解決430363個問題，去搜搜看，總會有你想問的

根據匹配值（到某個小數點）加入兩個pyspark數據框

首頁猿問根據匹配值（到某個小數點）加入兩個...

根據匹配值（到某個小數點）加入兩個pyspark數據框

Python

慕的地6264312 2023-02-22 16:01:01

我在 pyspark 中有兩個數據框：df1+-------+--------+----------------+-------------+ |new_lat|new_long| lat_long| State_name|+-------+--------+----------------+-------------+| 33.64| -117.63|[33.64,-117.625] |STATE 1 || 23.45| -101.54|[23.45,-101.542] |STATE 2 |+-------+--------+----------------+-------------+df2+---------+-----+--------------------+----------+------------+| label|value| dateTime| lat| long|+---------+-----+--------------------+----------+------------+|msg | 437|2019-04-06T05:10:...|33.6436263|-117.6255508||msg | 437|2019-04-06T05:10:...|33.6436263|-117.6255508||msg | 437|2019-04-06T05:10:...| 23.453622|-101.5423864||msg | 437|2019-04-06T05:10:...| 23.453622|-101.5420964|我想根據匹配的 lat，long 值加入這兩個表，最多 2 個小數點。所以我想要的輸出數據框是：DF3+---------+-----+--------------------+----------+------------+------+| label|value| dateTime| lat| long|state |+---------+-----+--------------------+----------+------------+-------|msg | 437|2019-04-06T05:10:...|33.6436263|-117.6255508|STATE 1|msg | 437|2019-04-06T05:10:...|33.6436263|-117.6255508|STATE 1|msg | 437|2019-04-06T05:10:...| 23.453622|-101.5423864|STATE 2|msg | 437|2019-04-06T05:10:...| 23.453622|-101.5420964|STATE 2考慮到 df2 有超過 100M 行，我怎樣才能有效地做到這一點。我試過df3=df1.join(df2, df1. new_lat == df2. lat, 'left')但不確定如何在 df1 中考慮最多兩位小數

查看完整描述

2 回答

滄海一幻覺

TA貢獻1824條經驗獲得超5個贊

substring在您的加入條件中使用。

df3=df1.join(df2, df1.new_lat == substring(df2.lat,1,5), 'left')

反對回復 2023-02-22

胡子哥哥

TA貢獻1825條經驗獲得超6個贊

substring絕對是最簡單的實現，但并不總能為您提供所需的準確性（想想 0.5 的整數舍入）。

為了獲得更好的準確性，您可以使用快速過濾器：

threshold = 0.01

df3 = (

df1

.join(df2)

.filter(df1.new_lat - threshold < df2.lat)

.filter(df2.lat < df1.new_lat + threshold)

)

反對回復 2023-02-22

2 回答
0 關注
140 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

根據匹配值（到某個小數點）加入兩個pyspark數據框

根據匹配值（到某個小數點）加入兩個pyspark數據框

2 回答

添加回答