首頁猿問如何通過大于考慮索引來過濾列

如何通過大于考慮索引來過濾列

Python

莫回無 2023-09-05 21:02:04

我有一個代表餐廳顧客評分的數據框。star_rating是該數據框中客戶的評級。我想要做的是在同一數據框中添加一列nb_fave_rating，表示餐廳的好評總數。如果其星星數為，我認為“贊成”意見> = 3。data = {'rating_id': ['1', '2','3','4','5','6','7','8','9'], 'user_id': ['56', '13','56','99','99','13','12','88','45'], 'restaurant_id': ['xxx', 'xxx','yyy','yyy','xxx','zzz','zzz','eee','eee'], 'star_rating': ['2.3', '3.7','1.2','5.0','1.0','3.2','1.0','2.2','0.2'], 'rating_year': ['2012','2012','2020','2001','2020','2015','2000','2003','2004'], 'first_year': ['2012', '2012','2001','2001','2012','2000','2000','2001','2001'], 'last_year': ['2020', '2020','2020','2020','2020','2015','2015','2020','2020'], }df = pd.DataFrame (data, columns = ['rating_id','user_id','restaurant_id','star_rating','rating_year','first_year','last_year'])df['star_rating'] = df['star_rating'].astype(float)positive_reviews = df[df.star_rating >= 3.0 ].groupby('restaurant_id')positive_reviews.head()從這里開始，我不知道要計算餐廳的正面評論數量并將其添加到我的初始數據框的新列中df。預期的輸出會是這樣的。data = {'rating_id': ['1', '2','3','4','5','6','7','8','9'], 'user_id': ['56', '13','56','99','99','13','12','88','45'], 'restaurant_id': ['xxx', 'xxx','yyy','yyy','xxx','zzz','zzz','eee','eee'], 'star_rating': ['2.3', '3.7','1.2','5.0','1.0','3.2','1.0','2.2','0.2'], 'rating_year': ['2012','2012','2020','2001','2020','2015','2000','2003','2004'], 'first_year': ['2012', '2012','2001','2001','2012','2000','2000','2001','2001'], 'last_year': ['2020', '2020','2020','2020','2020','2015','2015','2020','2020'], 'nb_fave_rating': ['1', '1','1','1','1','1','1','0','0'], }所以我嘗試了這個并得到了一堆 NaNdf['nb_fave_rating']=df[df.star_rating >= 3.0 ].groupby('restaurant_id').agg({'star_rating': 'count'})df.head()

查看完整描述

4 回答

繁星點點滴滴

TA貢獻1803條經驗獲得超3個贊

groupby這是和的潛在解決方案map：

#filtering the data with >=3 ratings?

filtered_data = df[df['star_rating'] >= 3]

#creating a dict containing the counts of the all the favorable reviews

d = filtered_data.groupby('restaurant_id')['star_rating'].count().to_dict()

#mapping the dictionary to the restaurant_id to generate 'nb_fave_rating'

df['nb_fave_rating'] = df['restaurant_id'].map(d)

#taking care of `NaN` values?

df.fillna(0,inplace=True)

#making the column integer (just to match the requirements)

df['nb_fave_rating'] = df['nb_fave_rating'].astype(int)

print(df)

輸出：

? rating_id user_id restaurant_id? star_rating rating_year first_year last_year? nb_fave_rating

0? ? ? ? ?1? ? ? 56? ? ? ? ? ?xxx? ? ? ? ? 2.3? ? ? ? 2012? ? ? ?2012? ? ? 2020? ? ? ? ? ? ? ?1

1? ? ? ? ?2? ? ? 13? ? ? ? ? ?xxx? ? ? ? ? 3.7? ? ? ? 2012? ? ? ?2012? ? ? 2020? ? ? ? ? ? ? ?1

2? ? ? ? ?3? ? ? 56? ? ? ? ? ?yyy? ? ? ? ? 1.2? ? ? ? 2020? ? ? ?2001? ? ? 2020? ? ? ? ? ? ? ?1

3? ? ? ? ?4? ? ? 99? ? ? ? ? ?yyy? ? ? ? ? 5.0? ? ? ? 2001? ? ? ?2001? ? ? 2020? ? ? ? ? ? ? ?1

4? ? ? ? ?5? ? ? 99? ? ? ? ? ?xxx? ? ? ? ? 1.0? ? ? ? 2020? ? ? ?2012? ? ? 2020? ? ? ? ? ? ? ?1

5? ? ? ? ?6? ? ? 13? ? ? ? ? ?zzz? ? ? ? ? 3.2? ? ? ? 2015? ? ? ?2000? ? ? 2015? ? ? ? ? ? ? ?1

6? ? ? ? ?7? ? ? 12? ? ? ? ? ?zzz? ? ? ? ? 1.0? ? ? ? 2000? ? ? ?2000? ? ? 2015? ? ? ? ? ? ? ?1

7? ? ? ? ?8? ? ? 88? ? ? ? ? ?eee? ? ? ? ? 2.2? ? ? ? 2003? ? ? ?2001? ? ? 2020? ? ? ? ? ? ? ?0

8? ? ? ? ?9? ? ? 45? ? ? ? ? ?eee? ? ? ? ? 0.2? ? ? ? 2004? ? ? ?2001? ? ? 2020??

反對回復 2023-09-05

收到一只叮咚

TA貢獻1821條經驗獲得超5個贊

在一行中完成。

groupby()、transform布爾選擇并將結果轉換為integer.

df['nb_fave_rating']=df.groupby('restaurant_id')['star_rating'].transform(lambda x: int((x>=3).sum()))

rating_id user_id restaurant_id star_rating rating_year first_year \

0 1 56 xxx 2.3 2012 2012

1 2 13 xxx 3.7 2012 2012

2 3 56 yyy 1.2 2020 2001

3 4 99 yyy 5.0 2001 2001

4 5 99 xxx 1.0 2020 2012

5 6 13 zzz 3.2 2015 2000

6 7 12 zzz 1.0 2000 2000

7 8 88 eee 2.2 2003 2001

8 9 45 eee 0.2 2004 2001

last_year nb_fave_rating

0 2020 1.0

1 2020 1.0

2 2020 1.0

3 2020 1.0

4 2020 1.0

5 2015 1.0

6 2015 1.0

7 2020 0.0

8 2020 0.0

反對回復 2023-09-05

慕標琳琳

TA貢獻1830條經驗獲得超9個贊

Grayrigel的解決方案（使用）是最快的解決方案。map
用于獲取每個的.groupby評分計數>=3restaurant_id
.merge?positive_reviews回到df.

positive_reviews = df[df.star_rating >= 3.0 ].groupby('restaurant_id', as_index=False).agg({'star_rating': 'count'}).rename(columns={'star_rating': 'nb_fave_rating'})

# join back to df

df = df.merge(positive_reviews, how='left', on='restaurant_id').fillna(0)

# display(df)

? rating_id user_id restaurant_id? star_rating rating_year first_year last_year? nb_fave_rating

0? ? ? ? ?1? ? ? 56? ? ? ? ? ?xxx? ? ? ? ? 2.3? ? ? ? 2012? ? ? ?2012? ? ? 2020? ? ? ? ? ? ?1.0

1? ? ? ? ?2? ? ? 13? ? ? ? ? ?xxx? ? ? ? ? 3.7? ? ? ? 2012? ? ? ?2012? ? ? 2020? ? ? ? ? ? ?1.0

2? ? ? ? ?3? ? ? 56? ? ? ? ? ?yyy? ? ? ? ? 1.2? ? ? ? 2020? ? ? ?2001? ? ? 2020? ? ? ? ? ? ?1.0

3? ? ? ? ?4? ? ? 99? ? ? ? ? ?yyy? ? ? ? ? 5.0? ? ? ? 2001? ? ? ?2001? ? ? 2020? ? ? ? ? ? ?1.0

4? ? ? ? ?5? ? ? 99? ? ? ? ? ?xxx? ? ? ? ? 1.0? ? ? ? 2020? ? ? ?2012? ? ? 2020? ? ? ? ? ? ?1.0

5? ? ? ? ?6? ? ? 13? ? ? ? ? ?zzz? ? ? ? ? 3.2? ? ? ? 2015? ? ? ?2000? ? ? 2015? ? ? ? ? ? ?1.0

6? ? ? ? ?7? ? ? 12? ? ? ? ? ?zzz? ? ? ? ? 1.0? ? ? ? 2000? ? ? ?2000? ? ? 2015? ? ? ? ? ? ?1.0

7? ? ? ? ?8? ? ? 88? ? ? ? ? ?eee? ? ? ? ? 2.2? ? ? ? 2003? ? ? ?2001? ? ? 2020? ? ? ? ? ? ?0.0

8? ? ? ? ?9? ? ? 45? ? ? ? ? ?eee? ? ? ? ? 0.2? ? ? ? 2004? ? ? ?2001? ? ? 2020? ? ? ? ? ? ?0.0

%timeit比較

給定 9 行數據框，df在問題中

# create a test dataframe of 1,125,000 rows

dfl = pd.concat([df] * 125000).reset_index(drop=True)

# test with transform

def add_rating_transform(df):

? ? return df.groupby('restaurant_id')['star_rating'].transform(lambda x: int((x>=3).sum()))

%timeit add_rating_transform(dfl)

[out]:

222 ms ± 9.01 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

# test with map

def add_rating_map(df):

? ? filtered_data = df[df['star_rating'] >= 3]

? ? d = filtered_data.groupby('restaurant_id')['star_rating'].count().to_dict()

? ? return df['restaurant_id'].map(d).fillna(0).astype(int)

%timeit add_rating_map(dfl)

[out]:

105 ms ± 1.56 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

# test with merge

def add_rating_merge(df):

? ? positive_reviews = df[df.star_rating >= 3.0 ].groupby('restaurant_id', as_index=False).agg({'star_rating': 'count'}).rename(columns={'star_rating': 'nb_fave_rating'})

? ? return df.merge(positive_reviews, how='left', on='restaurant_id').fillna(0)?

%timeit add_rating_merge(dfl)

[out]:

639 ms ± 26.5 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

反對回復 2023-09-05

侃侃爾雅

TA貢獻1801條經驗獲得超16個贊

統計評分 >= 3.0 的情況

df['nb_fave_rating'] = df.groupby('restaurant_id')['star_rating'].transform(lambda x: x.ge(3.0).sum()).astype(np.int)

反對回復 2023-09-05

4 回答
0 關注
167 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何通過大于考慮索引來過濾列

如何通過大于考慮索引來過濾列

4 回答

添加回答