2 回答

TA貢獻1804條經驗 獲得超7個贊
讓我建議您首先確定哪些分類變量是有序的(訂單計數,例如好、非常好、壞等),哪些是名義變量(順序無關緊要,例如顏色)。對于序數,您可以使用 map 如下:
Category
0 Excellent
1 Excellent
2 Bad
3 Good
4 Bad
5 Very Good
6 Very Bad
df.Category = df.Categoy.map({'Excellent':5, 'Very Good':4,
'Good':3, 'Fair':2, 'Bad':1, 'Very Bad':0})
Category
0 5
1 5
2 1
3 3
4 1
5 4
6 0
對于名義變量,您可以實施虛擬變量方法。示例:假設您的分類變量有兩個值“Native”和“Foreign”。您可以創建一個名為“本機”的列,其中 1 表示本機,0 表示外來??梢詾槎鄠€類別實施。
data = pd.DataFrame({"Origin": ['Native', 'Native', 'Foreign', 'Native', 'Foreign']})
Origin
0 Native
1 Native
2 Foreign
3 Native
4 Foreign
data['Native'] = pd.get_dummies(data['Origin'], drop_first=True)
data.drop("Origin", axis = 1, inplace = True)
這將導致:
Native
0 1
1 1
2 0
3 1
4 0
添加回答
舉報