首頁猿問如何修復混淆的索引

如何修復混淆的索引

Python

幕布斯6054654 2023-04-18 10:45:12

我在數據框中遇到索引問題。我有一個看起來像這樣的數據：df1 = pd.DataFrame({'Name': ['ABC-123', 'DEF-456', 'GHI-789', 'JKL-321'],'A1': [111, 222, 333, 444],'A2': [555, 666, 777, 888],'A3': [999, 123, 456, 789],'A4': [101, 202, 303, 404],'QQ': [1.3, 2.5, 3.7, 4.9]});我正在處理數據，在某些時候我創建了一個類似的數據框，其中包含原始數據中的一些數據，但是某處發生了數據索引的混合，因此新數據如下所示：df2 = pd.DataFrame({'A1': [444, 222, 111, 333],'A2': [888, 666, 555, 777],'A3': [789, 123, 999, 456],'A4': [404, 202, 101, 303]});行中的數據沒問題，只是索引錯誤，所以我需要新的數據框，但是第二個數據框中的行索引與第一個數據框中的索引匹配，例如第一行的數字為 444 、888、789 和 404 應該有索引 3，而不是 0。我該怎么做？我應該將第二個數據幀的每一行與第一個數據幀進行比較，如果第二個數據幀中的行與第一個數據幀的一行中的數據匹配，則將第二個數據幀中該行的索引更改為匹配行的索引第一個數據框的，但我不知道該怎么做。有什么建議么？來自評論的更新：我需要那些索引，但我需要它們，所以它們匹配，即第二個表中的索引跟在第一個表中的索引之后。另外，我不能單獨使用任何列，因為 non 是唯一的。只有整行是唯一的。我可能應該補充說，這兩個表不是真實的，而是作為示例創建的，我現在看到 ID 列具有誤導性。我已將其更改為 AA，以避免混淆。所以，正如我上面所說，列不是唯一的，只有整個行是唯一的。真實的表格有超過 200 列和數千行。我無法包含代碼，因為它又大又復雜，而且我不知道混淆發生在哪里。這也是無關緊要的，因為我正在談論的數據已經收集并保存在 CSV 文件中，所以這兩個數據幀實際上是從這些文件中導入的。這是我的問題。我無法重新運行原始代碼，即使我修復了它，因為這需要兩周的時間。我必須修復第二個數據幀中的索引，我懷疑如果知道該怎么做的話并沒有那么復雜。正如我所說，行中的數據很好，只是索引混淆了不，它只是這東西的一個名字，其余的數據都是關于。索引是指數據幀索引，因為它是在創建數據幀時由 pandas 默認創建的。整個問題是，我通過從 CSV 文件導入數據創建了第一個數據幀，對該數據做了一些非常耗時的工作，并將結果導出到另一個 CSV 文件。稍后我導入第二個 CSV 文件進行分析時，我發現具有相同數據的行的索引不匹配。所以現在我必須修復索引，否則我將失去大約兩周的工作是的，它是行和列的子集。數據應該是一樣的，只是索引混淆了。如果我可以將 df2 的每一行與 df1 進行比較，找出 df1 中該行數據的索引是什么，然后更改 df2 中該行的索引，這將解決問題。我只需要 df2 中的行索引與 df1 的相關行索引相匹配。df2 索引是混合的。df1 中的索引與兩個數據幀中的索引一樣。不，df2 只有 df1 的一些列和 df1 的一些行，但數據將在它們之間匹配。順序不同，這意味著索引不同，如果相同的話。但我想有可能對行進行排序，索引沒有按順序排列。

查看完整描述

1 回答

喵喵時光機

TA貢獻1846條經驗獲得超7個贊

pandas.concat兩個數據框

concat兩個數據框，但僅在兩個數據框的列上
連接的順序很重要，df1需要放在第一位
df1將帶來不在的行df2

用于.duplicated創建遮罩

應用蒙版，這將刪除多余的行
dfc現在將只有重復的行，并且來自的所有行都df1將排在第一位
df1和之間的所有匹配行將df2是True，但來自的額外行將df1是False
最后，.drop_duplicateswithkeep='first'將刪除底部的所有重復項，從而僅保留具有正確索引的dfc行。df1

import pandas as pd

# concat dataframes

dfc = pd.concat([df1[df2.columns], df2])

# drop non-duplicate rows and then drop duplicates, but keep the 1st

df2_correct_indices = dfc[dfc.duplicated(keep=False)].drop_duplicates(keep='first')

# display(df2_correct_indices)

A1 A2 A3 A4

0 111 555 999 101

1 222 666 123 202

2 333 777 456 303

3 444 888 789 404

使用的示例數據

df1

df1 = pd.DataFrame({'Name': ['ABC-123', 'DEF-456', 'GHI-789', 'JKL-321', 'not_in_df2'],

'A1': [111, 222, 333, 444, 1000],

'A2': [555, 666, 777, 888, 1000],

'A3': [999, 123, 456, 789, 1000],

'A4': [101, 202, 303, 404, 1000],

'QQ': [1.3, 2.5, 3.7, 4.9, 1000]})

Name A1 A2 A3 A4 QQ

0 ABC-123 111 555 999 101 1.3

1 DEF-456 222 666 123 202 2.5

2 GHI-789 333 777 456 303 3.7

3 JKL-321 444 888 789 404 4.9

4 not_in_df2 1000 1000 1000 1000 1000.0

df2

df2 = pd.DataFrame({'A1': [444, 222, 111, 333],

'A2': [888, 666, 555, 777],

'A3': [789, 123, 999, 456],

'A4': [404, 202, 101, 303]})

A1 A2 A3 A4

0 444 888 789 404

1 222 666 123 202

2 111 555 999 101

3 333 777 456 303

反對回復 2023-04-18

1 回答
0 關注
113 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何修復混淆的索引

如何修復混淆的索引

1 回答

添加回答