首頁猿問 Python：搜索多列并識別包含列...

Python：搜索多列并識別包含列表中任何元素的行

Python

夢里花落0921 2022-12-27 15:40:55

我最近發布了一個關于如何使用 R 進行子集化的問題：Subset dataframe in R based on a list specified in a vector (using a 'starts with' expression or equivalent)用戶@Ric S 非常友好地提供了這個問題的 R 答案。R 解決方案是：library(dplyr)df %>% filter_at(vars(-ID), any_vars(grepl(paste(medications, collapse = "|"), .)))但是，我的印象是 Python 可能更省時。總而言之，我試圖在超過 100 萬行的數據集中識別任何參與者規定的他汀類藥物和基于此的子集。我有一個列表，其中包含這些藥物的所有代碼（為了演示目的，我剛剛編造了一些代碼），接下來我想搜索數據框并將其子集給任何擁有“以”開頭的藥物代碼的人"列表中的任何元素。示例中的循環似乎是多余的，但我將為一些藥物類別運行此代碼。示例數據集，稱為meds_df： ID readcode_1 readcode_2 generic_name1 1001 bxd1 1146785342 Simvastatin2 1002 <NA> <NA> <NA>3 1003 <NA> <NA> Pravastatin4 1004 <NA> <NA> <NA>5 1005 bxd4 45432344 <NA>6 1006 <NA> <NA> <NA>7 1007 <NA> <NA> <NA>8 1008 <NA> <NA> <NA>9 1009 <NA> <NA> <NA>10 1010 bxde <NA> <NA>11 1011 <NA> <NA> <NA>預期輸出為： ID readcode_1 readcode_2 generic_name1 1001 bxd1 1146785342 Simvastatin3 1003 <NA> <NA> Pravastatin5 1005 bxd4 45432344 <NA>10 1010 bxde <NA> <NA>到目前為止，我的代碼基于其他 stackoverflow 問題，我還需要在此處嵌入 any() 或等效項：list_to_extract = ["bxd", "Simvastatin", "1146785342", "45432344", "Pravastatin"]variable_list = ['statins']for m in variable_list: print('extracting individuals prescribed %s' %m)test = meds_df.loc[meds_df['readcode_1', 'readcode_2','generic_name'].str.startswith(list_to_extract, na=False)] print(test)收到錯誤：KeyError: ('readcode_1', 'readcode_2','generic_name')任何幫助將不勝感激！

查看完整描述

3 回答

溫溫醬

TA貢獻1752條經驗獲得超4個贊

首先，正確的語法是meds_df[['readcode_1', 'readcode_2','generic_name']]（list索引切片中的列名）。這就是為什么你得到一個KeyError.

要回答您的問題，這是一種實現方法：

# Updated to use tuple per David's suggestion

idx = pd.concat((med_df[col].astype(str).str.startswith(tuple(list_to_extract)) for col in ['readcode_1', 'readcode_2','generic_name']), axis=1).any(axis=1)

med_df.loc[idx]

結果：

ID readcode_1 readcode_2 generic_name

1 1001 bxd1 1.146785e+09 Simvastatin

3 1003 NaN NaN Pravastatin

5 1005 bxd4 4.543234e+07 NaN

10 1010 bxde NaN NaN

反對回復 2022-12-27

繁花如伊

TA貢獻2012條經驗獲得超12個贊

您可以通過這種方式進行申請：

list_to_extract = ["bxd", "Simvastatin", "1146785342", "45432344", "Pravastatin"]

bool_df = df[['readcode_1', 'readcode_2','generic_name']].apply(lambda x: x.str.startswith(tuple(list_to_extract), na=False), axis=1)

df.loc[bool_df[bool_df.any(axis=1)].index]

輸出：

ID readcode_1 readcode_2 generic_name

1 1001 bxd1 1.146785e+09 Simvastatin

3 1003 NaN NaN Pravastatin

5 1005 bxd4 4.543234e+07 NaN

10 1010 bxde NaN NaN

感謝 r.ook 發現了一個小錯誤

反對回復 2022-12-27

叮當貓咪

TA貢獻1776條經驗獲得超12個贊

另一種解決方案，在重新創建數據幀之前，字符串處理發生在 vanilla python 中：

list_to_extract = ["bxd", "Simvastatin", "1146785342", "45432344", "Pravastatin"]

cols_to_search = ['readcode_1', 'readcode_2','generic_name']

output = [(ID, *searchbox)

for ID, searchbox in zip(df.ID,df.filter(cols_to_search).to_numpy())

if any([str(box).startswith(tuple(list_to_extract)) for box in searchbox])]

pd.DataFrame(output, columns = df.columns)

ID readcode_1 readcode_2 generic_name

0 1001 bxd1 1.146785e+09 Simvastatin

1 1003 NaN NaN Pravastatin

2 1005 bxd4 4.543234e+07 NaN

3 1010 bxde NaN NaN

反對回復 2022-12-27

3 回答
0 關注
170 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

Python：搜索多列并識別包含列表中任何元素的行

Python：搜索多列并識別包含列表中任何元素的行

3 回答

添加回答