首頁猿問更改分組依據并value_coun...

更改分組依據并value_counts輸出以映射到數據幀

Python

慕田峪7331174 2022-09-27 16:10:39

我有一個場景，我試圖按特定值過濾數據幀，并計算另一個標識符存在的次數。然后，我將其轉換為字典并映射回數據幀。我遇到的問題是，生成的字典無法映射回數據幀，因為我正在向字典引入復雜性（額外的鍵？），我不知道如何避免它。我想一個簡單的問題是：“如何在我的CELL_ID列上使用value_counts”，通過另一個名為Grid_Type的列進行過濾，并將結果映射回每個CELL_ID的所有單元格？到目前為止，我在做什么這可以計算包含CELL_ID的單元格數，但不允許我按Grid_Typedf['CELL_ID'].value_counts()z1 = z.to_dict()df['CELL_CNT'] = df['CELL_ID'].map(z1)這個簡單示例的字典輸出如下所示：7015988: 1, 7122961: 1, 6976792: 1我的代碼不好這是我迄今為止一直在研究的 - 我希望能夠返回計數，并按Grid_Type過濾。例如，我希望能夠計算我在每個CELL_ID中看到“Spot”的次數。z = df[df.Grid_Type == 'Spot'].groupby('CELL_ID')['Grid_Type'].value_counts()z1 = z.to_dict()df['SPOT_CNT'] = df['CELL_ID'].map(z1)似乎在我嘗試過濾的示例中，字典返回了一個更復雜的結果，其中包括Grid_Type。問題是，我只想將計數映射到Cell_ID。(7133691, 'Spot'): 3, (7133692, 'Spot'): 3, (7133693, 'Spot'): 2示例數據+---------+-----------+| CELL_ID | Grid_Type |+---------+-----------+| 001 | Spot || 001 | Square || 001 | Spot || 001 | Square || 001 | Square || 002 | Spot || 002 | Square || 002 | Square || 003 | Square || 003 | Spot || 003 | Spot || 003 | Spot |+---------+-----------+預期結果+---------+-----------+----------+| CELL_ID | Grid_Type | SPOT_CNT |+---------+-----------+----------+| 001 | Spot | 2 || 001 | Square | 2 || 001 | Spot | 2 || 001 | Square | 2 || 001 | Square | 2 || 002 | Spot | 1 || 002 | Square | 1 || 002 | Square | 1 || 003 | Square | 3 || 003 | Spot | 3 || 003 | Spot | 3 || 003 | Spot | 3 |+---------+-----------+----------+感謝您提供的任何幫助/

查看完整描述

2 回答

長風秋雁

TA貢獻1757條經驗獲得超7個贊

df = pd.read_csv('spot.txt', sep=r"[ ]{1,}", engine='python', dtype='object')

print(df)

CELL_ID Grid_Type

0 001 Spot

1 001 Square

2 001 Spot

3 001 Square

4 001 Square

5 002 Spot

6 002 Square

7 002 Square

8 003 Square

9 003 Spot

10 003 Spot

11 003 Spot

df_gb = df['Grid_Type'].groupby([df['CELL_ID']]).value_counts()

print(df_gb)

CELL_ID Grid_Type

001 Square 3

Spot 2

002 Square 2

Spot 1

003 Spot 3

Square 1

Name: Grid_Type, dtype: int64

df_gb_dict = df_gb.to_dict()

count_list = []

for idx, row in df.iterrows():

for k, v in df_gb_dict.items():

if k[0] == row['CELL_ID'] and k[1] == row['Grid_Type'] and row['Grid_Type'] == 'Spot':

count_list.append([k[0], k[1], v])

if k[0] == row['CELL_ID'] and k[1] == row['Grid_Type'] and row['Grid_Type'] == 'Square':

count_list.append([k[0], k[1], df_gb_dict[(row['CELL_ID'], 'Spot')]])

new_df = pd.DataFrame(count_list, columns=['CELL_ID', 'Grid_Type', 'SPOT_CNT'])

new_df.sort_values(by='CELL_ID', inplace=True)

new_df.reset_index(drop=True)

print(new_df)

CELL_ID Grid_Type SPOT_CNT

0 001 Spot 2

1 001 Square 2

2 001 Spot 2

3 001 Square 2

4 001 Square 2

5 002 Spot 1

6 002 Square 1

7 002 Square 1

8 003 Square 3

9 003 Spot 3

10 003 Spot 3

11 003 Spot 3

反對回復 2022-09-27

慕姐8265434

TA貢獻1813條經驗獲得超2個贊

似乎你有一個答案，但我會用transe（）來解決這個問題：

# set it up

df = pd.read_clipboard()

print(df)

CELL_ID Grid_Type

0 1 Spot

1 1 Square

2 1 Spot

3 1 Square

4 1 Square

5 2 Spot

6 2 Square

7 2 Square

8 3 Square

9 3 Spot

10 3 Spot

11 3 Spot

df['SPOT_CNT'] = df.groupby('CELL_ID')['Grid_Type'].transform(lambda x: sum(x == 'Spot'))

print(df)

CELL_ID Grid_Type SPOT_CNT

0 1 Spot 2

1 1 Square 2

2 1 Spot 2

3 1 Square 2

4 1 Square 2

5 2 Spot 1

6 2 Square 1

7 2 Square 1

8 3 Square 3

9 3 Spot 3

10 3 Spot 3

11 3 Spot 3

在函數內部：

- 它返回 bool if value（） ==

- 對于每個組，將 bools

相加最后轉換，根據文檔，行為如下：lambdax'Spot'sum()True

DataFrame.transform(self, func, axis=0, *args, **kwargs) → 'DataFrame'[source]

"Call func on self producing a DataFrame with transformed values."

"Produced DataFrame will have same axis length as self." <----

...

希望這是有幫助的。

反對回復 2022-09-27

2 回答
0 關注
156 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

更改分組依據并value_counts輸出以映射到數據幀

更改分組依據并value_counts輸出以映射到數據幀

2 回答

添加回答