我有一個分類任務,這意味著沖突會損害性能,即相同的功能但不同的標簽。idx feature label 0 a 0 1 a 1 2 b 0 3 c 1 4 a 0 5 b 0我怎樣才能獲得如下所示的格式化數據框?idx feature label 2 b 0 3 c 1 5 b 0 Dataframe.duplicated()只輸出重復的行,看來之間的邏輯運算df["features"].duplicated()并df.duplicated()沒有返回我想要的結果。
1 回答

30秒到達戰場
TA貢獻1828條經驗 獲得超6個贊
我認為您需要每組只有一個唯一值的行 - 因此使用GroupBy.transform
with?DataFrameGroupBy.nunique
、比較依據1
和 過濾boolean indexing
:
df = df[df.groupby('feature')['label'].transform('nunique').eq(1)]
print (df)
? ?idx feature? label
2? ? 2? ? ? ?b? ? ? 0
3? ? 3? ? ? ?c? ? ? 1
5? ? 5? ? ? ?b? ? ? 0
添加回答
舉報
0/150
提交
取消