亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何根據某些條件迭代 Pandas DataFrame 以創建新的 DateFrame

如何根據某些條件迭代 Pandas DataFrame 以創建新的 DateFrame

慕田峪4524236 2023-05-16 14:22:48
我已將一個 csv 文件導入到帶有銷售渠道數據的 Pandas DataFrame 中。每行代表一個機會,包括潛在客戶名稱、產品信息、管道階段、概率、預期交易規模、預期結束日期、持續時間等。現在我想將其轉換為銷售預測,我想通過將交易規模除以持續時間乘以概率來計算每個時期的平均收入。然后根據預期的截止日期和持續時間為所有可能的時間段創建一條線。我創建了一個簡化的示例來支持我的問題:import pandas as pdpipeline_data = [{'Client': 'A', 'Stage': 'suspect', 'Probability': '0.25', 'Dealsize': '1200', 'Duration': 6, 'Start_period': '2020-08'}, {'Client': 'B', 'Stage': 'prospect', 'Probability': '0.60', 'Dealsize': '1000', 'Duration': 4, 'Start_period': '2020-10'}]df = pd.DataFrame(pipeline_data)df輸出:    Client  Stage    Probability Dealsize   Duration    Start_period0   A       suspect  0.25        1200       6           2020-081   B       prospect 0.60        1000       4           2020-10因此,客戶每月的平均收入為 1200 / 6 * 0.25 = 50。收入將在 2020-08 至 2021-01 期間下降(即從 2020 年 8 月到 2021 年 1 月)。首選輸出將是:    Client  Stage    Probability Dealsize   Duration    Start_period Weighted_revenue Period0   A       suspect  0.25        1200       6           2020-08      50               2020-081   A       suspect  0.25        1200       6           2020-08      50               2020-092   A       suspect  0.25        1200       6           2020-08      50               2020-10 3   A       suspect  0.25        1200       6           2020-08      50               2020-114   A       suspect  0.25        1200       6           2020-08      50               2020-125   A       suspect  0.25        1200       6           2020-08      50               2021-016   B       prospect 0.60        1000       4           2020-10      150              2020-107   B       prospect 0.60        1000       4           2020-10      150              2020-118   B       prospect 0.60        1000       4           2020-10      150              2020-129   B       prospect 0.60        1000       4           2020-10      150              2021-01我已經將 Start_period 轉換為 Period 類型,因此它可用于計算/迭代。我對編碼很陌生。我試圖在這個網站和其他網站上找到答案,但直到現在都沒有成功。我可以想象使用某種嵌套循環和追加函數來解決這個問題,但我不知道如何在 Pandas 中使用它......任何幫助將不勝感激!
查看完整描述

1 回答

?
慕尼黑5688855

TA貢獻1848條經驗 獲得超2個贊

您可以嘗試使用列表理解,pd.date_range并且explode


df['Weighted_revenue']=(df['Dealsize'].astype(float)/df['Duration'].astype(float))*df['Probability'].astype(float)

df['Period']=[pd.date_range(x, periods=y, freq="M").strftime('%Y-%m') for x,y in zip(df["Start_period"], df["Duration"])]

df=df.explode('Period')

輸出:


df

  Client     Stage Probability Dealsize  Duration Start_period  Weighted_revenue   Period

0      A   suspect        0.25     1200         6      2020-08              50.0  2020-08

0      A   suspect        0.25     1200         6      2020-08              50.0  2020-09

0      A   suspect        0.25     1200         6      2020-08              50.0  2020-10

0      A   suspect        0.25     1200         6      2020-08              50.0  2020-11

0      A   suspect        0.25     1200         6      2020-08              50.0  2020-12

0      A   suspect        0.25     1200         6      2020-08              50.0  2021-01

1      B  prospect        0.60     1000         4      2020-10             150.0  2020-10

1      B  prospect        0.60     1000         4      2020-10             150.0  2020-11

1      B  prospect        0.60     1000         4      2020-10             150.0  2020-12

1      B  prospect        0.60     1000         4      2020-10             150.0  2021-01

細節:


首先,我們'Weighted_revenue'使用您描述的公式創建列:


df['Weighted_revenue']=(df['Dealsize'].astype(float)/df['Duration'].astype(float))*df['Probability'].astype(float)

df


  Client     Stage Probability Dealsize  Duration Start_period  Weighted_revenue

0      A   suspect        0.25     1200         6      2020-08              50.0

1      B  prospect        0.60     1000         4      2020-10             150.0

然后,我們使用列表推導 withzip來創建基于'Start_period'和'Duration'列的日期范圍


df['Period']=[pd.date_range(x, periods=y, freq="M").strftime('%Y-%m') for x,y in zip(df["Start_period"], df["Duration"])]

df


  Client     Stage Probability Dealsize  Duration Start_period  Weighted_revenue                                             Period

0      A   suspect        0.25     1200         6      2020-08              50.0  [2020-08, 2020-09, 2020-10, 2020-11, 2020-12, 2021-01]

1      B  prospect        0.60     1000         4      2020-10             150.0               [2020-10, 2020-11, 2020-12, 2021-01]

最后我們使用explode擴展列表:


df=df.explode('Period')

df 


 Client     Stage Probability Dealsize  Duration Start_period  Weighted_revenue   Period

0      A   suspect        0.25     1200         6      2020-08              50.0  2020-08

0      A   suspect        0.25     1200         6      2020-08              50.0  2020-09

0      A   suspect        0.25     1200         6      2020-08              50.0  2020-10

0      A   suspect        0.25     1200         6      2020-08              50.0  2020-11

0      A   suspect        0.25     1200         6      2020-08              50.0  2020-12

0      A   suspect        0.25     1200         6      2020-08              50.0  2021-01

1      B  prospect        0.60     1000         4      2020-10             150.0  2020-10

1      B  prospect        0.60     1000         4      2020-10             150.0  2020-11

1      B  prospect        0.60     1000         4      2020-10             150.0  2020-12

1      B  prospect        0.60     1000         4      2020-10             150.0  2021-01



查看完整回答
反對 回復 2023-05-16
  • 1 回答
  • 0 關注
  • 150 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號