我正在努力解決以下問題:給定一個包含列的數據框name,variable我想創建 2 個列表:list_names_nan 包含變量列中所有值為 nan 的名稱list_names_not_nan 包含變量列中的列表 1 值不是 nan 的名稱下面是一個例子import pandasimport numpydf = pandas.DataFrame(data=[['x',1],['y',2],['x',4],['z',numpy.nan], ['x',numpy.nan],['y',3],['x',numpy.nan],['z',numpy.nan],], columns=['name','variable'])df: name variable0 x 1.01 y 2.02 x 4.03 z NaN4 x NaN5 y 3.06 x NaN7 z NaN所需的輸出應該是list_names_nan = [z]list_names_not_nan = [x,y]
2 回答

溫溫醬
TA貢獻1752條經驗 獲得超4個贊
用于Series.isna
創建布爾掩碼,然后Series.groupby
在此掩碼上使用并聚合,all
最后使用此掩碼m
過濾nan
和not_nan
值:
m = df['variable'].isna().groupby(df['name']).all()
nan, not_nan = m[m].index.tolist(), m[~m].index.tolist()
結果:
['z'] # nan
['x', 'y'] # not_nan

茅侃侃
TA貢獻1842條經驗 獲得超21個贊
這是使用自定義聚合函數的另一種方法:
agg = df.groupby('name').agg(lambda x: all(np.isnan(x))).reset_index()
這會生成一個聚合數據框:
name variable
0 x False
1 y False
2 z True
False然后你就可以得到是或的名字True
list_names_nan = agg.loc[agg['variable']==True]['name'].tolist()
list_names_not_nan = agg.loc[agg['variable']==False]['name'].tolist()
添加回答
舉報
0/150
提交
取消