亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Pandas 按第一列分組并從第二列添加逗號分隔的條目

Pandas 按第一列分組并從第二列添加逗號分隔的條目

幕布斯6054654 2021-10-12 15:44:33
我有一個大約有 500 萬行的 Pandas 數據框,其中有 2 列“top_level_domain”和“category”。我想創建一個具有不同 top_level_domain 的新數據框和一個以逗號分隔的類別列以用于唯一類別。此數據框已具有按性質以逗號分隔的類別。其他域如 google 將具有重復類別,但我只想要一個。數據框:df1    top_level_domain      category1   google.com            Search Engines2   service-now.com       Business, Software/Hardware3   google-analytics.com  Internet Services4   live.com              None Assigned5   google.com            Content Server6   google.com            Search Engines7   inspectlet.com        Internet Services8   doubleclick.net       Online Shopping, Web Ads9   google.com            Search Engines10  doubleclick.net       Ads期望的輸出:df2    top_level_domain      category1   google.com            Search Engines, Content Server2   service-now.com       Business, Software/Hardware3   google-analytics.com  Internet Services4   live.com              None Assigned7   inspectlet.com        Internet Services8   doubleclick.net       Online Shopping, Web Ads, Ads實現這一目標的最佳方法是什么?我已經嘗試了Pandas groupby 多列、多列列表中的所有示例其他人喜歡下面的那個,但我仍然在類別列中收到重復項。distinct_category = distinct_category.groupby('top_level_domain')['category'].agg(lambda x: ', '.join(set(x))).reset_index()但我在列中得到重復1   zoho.com    Online Shopping, Interactive Web Applications, Interactive Web Applications, Interactive Web Applications, Motor Vehicles1   zohopublic.com  Internet Services, Motor Vehicles, Internet Services, Online Shopping, Internet Services
查看完整描述

3 回答

?
小唯快跑啊

TA貢獻1863條經驗 獲得超2個贊

首先展開你的數據框,所以每一行只包含一個類別:


split = df['category'].str.split(', ')

lens = split.str.len()


df = pd.DataFrame({'top_level_domain': np.repeat(df['top_level_domain'].values, lens),

                   'category': np.concatenate(split)})

然后刪除重復和使用agg有str.join:


res = df.drop_duplicates()\

        .groupby('top_level_domain')['category'].agg(','.join)


查看完整回答
反對 回復 2021-10-12
?
揚帆大魚

TA貢獻1799條經驗 獲得超9個贊

以下代碼對我有用:

df =df.groupby('top_level_domain')['category'].agg([('category', ', '.join)]).reset_index()


查看完整回答
反對 回復 2021-10-12
  • 3 回答
  • 0 關注
  • 348 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號