亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

搜索優化.

搜索優化.

四季花海 2023-07-27 10:10:13
我正在處理一個問題陳述,其中有兩個數據幀 df1 和 df_main。df_main如下:users = ['id1','id1','id2','id2','id3','id3','id4']keywords = ['k1','k1', 'k2','k2','k2','k3','k3']quantity = [10,10,2,2,2,4,4]duration  = [1,1,3,3,3,2,2]df_main = pd.DataFrame(list(zip(users, keywords, quantity, duration)), columns = ['users','keywords','quantity','duration'])df_main 基本上是一個包含 user_id 信息、相應關鍵字以及數量和持續時間列的數據框df1 有一列用于 user_id,其余列用于 df_main 中的所有關鍵字。使用 main_df 作為參考,每個 user_id 和關鍵字對都標記為 1,否則保留為 0。這是 df1 的代碼:columns = ['USER_ID','k1','k2','k3']users = ['id1','id2','id3','id4']values1 = [1,0,0,0]values2 = [0,1,1,0]values3 = [0,0,1,1]df1 = pd.DataFrame(list(zip(users, values1, values2, values3)), columns = columns)現在我想要以下數據框:其中total_quantity和total_duration是每個id和關鍵字對的數量和持續時間值的總和。該代碼正在運行,但它真的很慢,我真的想擺脫循環。如果有人能向我展示一種更優化的方法,我將不勝感激。
查看完整描述

1 回答

?
萬千封印

TA貢獻1891條經驗 獲得超3個贊

代碼中性能的主要問題是多個循環。您可以使用 pandas 內置方法將所有循環委托給 numpy 的 C 實現。


例如,使用df_main.groupbysum、重塑和展平索引...然后與 合并df1。


df_temp = df_main.groupby(['users', 'keywords']).sum().unstack()

df_temp.columns = 'total_' + df_temp.columns.map('_'.join) # flatten column index


df1 = df1.merge(df_temp, left_on='USER_ID', right_on='users')

輸出


       total_quantity_k1  total_quantity_k2  total_quantity_k3  \

users

id1                 20.0                NaN                NaN

id2                  NaN                4.0                NaN

id3                  NaN                2.0                4.0

id4                  NaN                NaN                4.0


       total_duration_k1  total_duration_k2  total_duration_k3

users

id1                  2.0                NaN                NaN

id2                  NaN                6.0                NaN

id3                  NaN                3.0                2.0

id4                  NaN                NaN                2.0

  USER_ID  k1  k2  k3  total_quantity_k1  total_quantity_k2  \

0     id1   1   0   0               20.0                NaN

1     id2   0   1   0                NaN                4.0

2     id3   0   1   1                NaN                2.0

3     id4   0   0   1                NaN                NaN


   total_quantity_k3  total_duration_k1  total_duration_k2  total_duration_k3

0                NaN                2.0                NaN                NaN

1                NaN                NaN                6.0                NaN

2                4.0                NaN                3.0                2.0

3                4.0                NaN                NaN                2.0


查看完整回答
反對 回復 2023-07-27
  • 1 回答
  • 0 關注
  • 99 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號