已解決430363個問題，去搜搜看，總會有你想問的

如何使用類似行列表中的值快速填充一行中的 NaN 值

首頁猿問如何使用類似行列表中的值快速填充一...

如何使用類似行列表中的值快速填充一行中的 NaN 值

Python

森林海 2021-09-25 16:58:44

我有一個大數據框（大約 800,000 行）。近 30% 的行具有 NaN 值，例如，test = pd.DataFrame({"name": [1,2,3,4,5,6,7], "col1": ['c1', 'c2', 'c3', 'c4', 'c5', 'c6', 'c7'], "col2": [4, 5, 6, np.nan, np.nan, 8, 5], "col3": [7, 8, 9, np.nan, np.nan, 3, 7], "col4": [7, 8, 9, np.nan, np.nan, 2, 6]}) name col1 col2 col3 col4 0 1 c1 4.0 7.0 7.01 2 c2 5.0 8.0 8.0 2 3 c3 6.0 9.0 9.0 3 4 c4 NaN NaN NaN 4 5 c5 NaN NaN NaN 5 6 c6 8.0 3.0 2.0 6 7 c7 5.0 7.0 6.0現在我在 row3 和 row4 中有 NaN。根據一些規則，我得到 row3 最相似的行是similar_for_row3 = ['name' = 10, 'name' = 3, 'name' = 1]而對于 row4 是similar_for_row4 = ['name' = 2, 'name' = 6, 'name' = 20].然后，我的問題是：我怎么可以快速檢查，如果這些行中similar_for_row3，并similar_for_row4在數據幀，例如，'name' = 10而'name' = 20不是它。快速用NaN相似行中的值替換一行中的值。例如，對于row3，我們首先檢查中的所有行similar_for_row3，然后使用 Dataframe 中存在的第一行（即test.loc[test['name' == 3]]）來替換NaN中的row3。輸出是： name col1 col2 col3 col4 0 1 c1 4.0 7.0 7.0 1 2 c2 5.0 8.0 8.0 2 3 c3 6.0 9.0 9.0 3 4 c4 6.0 9.0 9.0 -> replace NaN with 'name' = 3 4 5 c5 NaN NaN NaN 5 6 c6 8.0 3.0 2.0 6 7 c7 5.0 7.0 6.0我試圖用“for 循環”迭代所有數據幀來替換 NaN 值，但速度很慢。更換一行大約需要 3 秒鐘。我的數據集有 800,000 行。這將花費我一個月的時間來完成。請幫忙！

查看完整描述

1 回答

吃雞游戲

TA貢獻1829條經驗獲得超7個贊

如何快速檢查similar_for_row3 和similar_for_row4 中的這些行是否在Dataframe 中，例如'name' = 10 和'name' = 20 不在其中。

您可以sets使用&和 usesorted設置找到兩者的交集，key= similar_for_row3.index以便使用出現的第一個交集similar_for_row3：

similar_for_row4 = [2, 6, 20]

fill_with = sorted(list(set(similar_for_row4) & set(test.name.values)),

key= similar_for_row4.index)[0]

所以這里第 2 行將用于替換第 4 行，正如您提到的“數據幀中存在的第一行”。

用相似行中的值快速替換一行中的 NaN 值。例如，對于row3，我們首先檢查similar_for_row3中的所有行，然后使用Dataframe中存在的第一行（即test.loc[test['name' == 3]]）替換row3中的NaN。

您可以首先使用.isnull()在特定行上切片的數據幀創建一個掩碼，并在數據幀上執行布爾索引以過濾對應列，在本例中為第 2 行：

row = 4

mask = test.loc[row, :].isnull().squeeze()

test.loc[row, mask] = test.loc[fill_with, mask].values

因此，對于此示例，您將擁有：

name col1 col2 col3 col4

0 1 c1 4.0 7.0 7.0

1 2 c2 5.0 8.0 8.0

2 3 c3 6.0 9.0 9.0

3 4 c4 NaN NaN NaN

4 5 c5 6.0 9.0 9.0

5 6 c6 8.0 3.0 2.0

6 7 c7 5.0 7.0 6.0

更新

為了輕松檢測存在任何 NaN 的行，您可以執行以下操作：

has_nans = test[test.isnull().any(axis=1)].index.values

并且簡單地循環has_nans查找在每次迭代中替換的最相似的行。

反對回復 2021-09-25

1 回答
0 關注
251 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何使用類似行列表中的值快速填充一行中的 NaN 值

如何使用類似行列表中的值快速填充一行中的 NaN 值

1 回答

添加回答