我有一個具有以下結構的數據框: Cluster 1 Cluster 2 Cluster 3ID Name Revenue ID Name Revenue ID Name Revenue1234 John 123 1235 Jane 761 1237 Mary 2761376 Peter 254 1297 Paul 439 1425 David 532但是,我不確定如何執行基本功能,例如列.unique或.value_count列,因為我不確定如何在代碼中引用它們...例如,如果我想查看 Cluster 2 Name 列中的唯一值,我將如何編寫代碼?通常我會打字df.Name.unique(),或者df['Name'].unique()這些都不起作用。我的原始數據如下所示:ID Name Revenue Cluster1234 John 123 11235 Jane 761 21237 Mary 276 31297 Paul 439 21376 Peter 254 11425 David 532 3我用這段代碼讓我明白了我現在的觀點:df = (df.set_index([df.groupby('Cluster').cumcount(), 'Cluster']) .unstack() .swaplevel(1,0, axis=1) .sort_index(axis=1) .rename(columns=lambda x: f'Cluster {x}', level=0))```
1 回答
肥皂起泡泡
TA貢獻1829條經驗 獲得超6個贊
您只需要按順序按索引進行子集化。
因此,您的第一步是對集群 2 進行子集化,然后獲取唯一名稱。
例如:
df["Cluster 2"]["Names"].unique()
添加回答
舉報
0/150
提交
取消
