亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

如何在循環中生成 Spark 數據集聚合長實驗程序?

如何在循環中生成 Spark 數據集聚合長實驗程序?

皈依舞 2022-08-17 16:37:25
我正在使用Java Spark來統計數據集。我需要通過許多exper聚合數據集,因此代碼又長又難看。expers有一些共同的邏輯,我可以用循環生成exper嗎?下面是代碼示例,實際代碼有數百行重復代碼:Dataset<Row> res = ds.groupBy(ds.col("uid")).agg(functions.max(ds.col("create_time")).as("create_time"),functions.sum(functions.when(ds.col("date_diff").$less$eq(30).and(ds.col("call_type").isin(callTypeOut)),                    ds.col("duration"))).as("caller_call_time_1"),                          functions.sum(functions.when(ds.col("date_diff").$less$eq(60)                            .and(ds.col("call_type").isin(callTypeOut)),                    ds.col("duration"))).as("caller_call_time_2"),            functions.sum(functions.when(ds.col("date_diff").$less$eq(90)                            .and(ds.col("call_type").isin(callTypeOut)),                    ds.col("duration"))).as("caller_call_time_3"),            functions.sum(functions.when(ds.col("date_diff").$less$eq(120)                            .and(ds.col("call_type").isin(callTypeOut)),                    ds.col("duration"))).as("caller_call_time_4"),            functions.sum(functions.when(ds.col("date_diff").$less$eq(150)                            .and(ds.col("call_type").isin(callTypeOut)),                    ds.col("duration"))).as("caller_call_time_5"),            functions.sum(functions.when(ds.col("date_diff").$less$eq(180)                            .and(ds.col("call_type").isin(callTypeOut)),                    ds.col("duration"))).as("caller_call_time_6"))我得到了這樣的解決方案:List<Column> exprs = new ArrayList<>();for (int i = 1; i < 7; i ++ ) {    exprs.add(functions.sum(functions.when(ds.col("date_diff").$less$eq(30*i)                        .and(ds.col("call_type").isin(callTypeOut)),                ds.col("duration"))).as("caller_call_time_"+Integer.toString(i));}Dataset<Row> res = ds.groupBy(ds.col("uid")).agg(functions.max(ds.col("create_time")).as("create_time"),exprs.toArray(new Column[exprs.size()]));
查看完整描述

1 回答

?
哆啦的時光機

TA貢獻1779條經驗 獲得超6個贊

您可以:

  1. 創建一個數據幀(數據集是一個數據幀,與任何其他列的數據集相對),其中包含所有其他列,然后對新創建的列執行聚合。您可以在循環中創建列。

  2. 構建一個 UDAF(用戶定義的聚合函數),該函數將在 Java 中處理您的自定義代碼。

希望它有幫助...


查看完整回答
反對 回復 2022-08-17
  • 1 回答
  • 0 關注
  • 80 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號