首頁猿問查找缺失的天數和分組

查找缺失的天數和分組

Python

慕萊塢森 2023-12-12 21:46:54

我有一個看起來像這樣的數據框 dt user 0 2016-01-01 a 1 2016-01-02 a 2 2016-01-03 a 3 2016-01-04 a 4 2016-01-05 a 5 2016-01-06 a 6 2016-01-01 b 7 2016-01-02 b 8 2016-01-03 b 9 2016-01-04 b 10 2016-01-05 b 11 2016-01-06 b 12 2016-01-07 b 13 2015-12-31 c 14 2016-01-01 c 15 2016-01-02 c 16 2016-01-03 c 17 2016-01-04 c 18 2016-01-05 c 19 2016-01-06 c 20 2016-01-07 c 21 2016-01-08 c 22 2016-01-09 c23 2016-01-10 c 我想找到每個用戶丟失的日期。對于日期范圍，最小日期為2015-12-31 ，最大日期為2016-01-10。結果如下： user missing_days a 5 b 4 c 0

查看完整描述

4 回答

慕村225694

TA貢獻1880條經驗獲得超4個贊

用于isin檢查每組的日期范圍user以及agg.sum每組返回的布爾掩碼

df['dt'] = pd.to_datetime(df['dt']) #if `dt` columns already in datetime dtype, ignore this

check_dates = pd.date_range('2015-12-31', '2016-01-10', freq='D')

s = df.groupby('user').dt.agg(lambda x: (~check_dates.isin(x)).sum())

Out[920]:

user

a 5

b 4

c 0

Name: dt, dtype: int64

反對回復 2023-12-12

飲歌長嘯

TA貢獻1951條經驗獲得超3個贊

### Convert your dates to datetime

df['dt'] = pd.to_datetime(df['dt'], infer_datetime_format=True)

### Create the list of dates per user

user_days = df.groupby('user')['dt'].apply(list)

### Initialize the final dataframe

df_miss_dates = pd.DataFrame(user_days)

all_dates = pd.date_range('2015-12-31', '2016-01-10', freq='D')

### Find the number of missing dates per user

df_miss_dates['missing_days'] = df_miss_dates['dt'].apply(lambda x: len(set(all_dates) - set(x)))

df_miss_dates.drop(columns='dt', inplace=True)

print(df_miss_dates)

輸出：

missing_days

user

a 5

b 4

c 0

反對回復 2023-12-12

天涯盡頭無女友

TA貢獻1831條經驗獲得超9個贊

定義以下函數：

def missingDates(grp : pd.Series, d1 : pd.Timestamp, d2 : pd.Timestamp):

ndTotal = (d2 - d1).days + 1

ndPresent = grp[grp.between(d1, d2)].index.size

return ndTotal - ndPresent

然后將其應用到每個組并更改為 DataFrame （正如我從您的帖子中看到的，您只需要一個DataFrame，有 2 列）：

result = df.groupby('user')['dt'].apply(missingDates,

pd.to_datetime('2015-12-31'), pd.to_datetime('2016-01-10'))\

.rename('missing_days').reset_index()

結果是：

user missing_days

0 a 5

1 b 4

2 c 0

我的解決方案依賴于這樣一個事實：每個組中的日期都是唯一的，并且所有日期都沒有時間部分。如果不滿足這些條件，則應添加日期規范化和調用唯一函數。

補充說明：將dt（列名）更改為其他名稱，因為dt是Pandas中日期訪問器的名稱。用列名或變量名“覆蓋”標準pandasonic名稱是一種不好的做法。

反對回復 2023-12-12

瀟瀟雨雨

TA貢獻1833條經驗獲得超4個贊

你可以這樣做

from datetime import date, timedelta

sdate = date(2015, 12, 31) # start date

edate = date(2016, 1, 10) # end date

delta = edate - sdate # as timedelta

days=[]

for i in range(delta.days + 1):

day = sdate + timedelta(days=i)

days.append(str(day))

user=[]

missing_days = []

for user_n in df.user.unique():

user_days = df.loc[df.user ==user_n,'dt' ].to_list()

md = len([day for day in days if day not in user_days])

user.append(user_n)

missing_days.append(md)

new_df = pd.DataFrame({'user': user,'missing_days': missing_days})

new_df

輸出

user missing_days

a 5

b 4

反對回復 2023-12-12

4 回答
0 關注
220 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

查找缺失的天數和分組

查找缺失的天數和分組

4 回答

添加回答