已解決430363個問題，去搜搜看，總會有你想問的

如何在循環中生成 Spark 數據集聚合長實驗程序？

首頁猿問如何在循環中生成 Spark...

如何在循環中生成 Spark 數據集聚合長實驗程序？

Java

皈依舞 2022-08-17 16:37:25

我正在使用Java Spark來統計數據集。我需要通過許多exper聚合數據集，因此代碼又長又難看。expers有一些共同的邏輯，我可以用循環生成exper嗎？下面是代碼示例，實際代碼有數百行重復代碼：Dataset<Row> res = ds.groupBy(ds.col("uid")).agg(functions.max(ds.col("create_time")).as("create_time"),functions.sum(functions.when(ds.col("date_diff").$less$eq(30).and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_1"), functions.sum(functions.when(ds.col("date_diff").$less$eq(60) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_2"), functions.sum(functions.when(ds.col("date_diff").$less$eq(90) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_3"), functions.sum(functions.when(ds.col("date_diff").$less$eq(120) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_4"), functions.sum(functions.when(ds.col("date_diff").$less$eq(150) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_5"), functions.sum(functions.when(ds.col("date_diff").$less$eq(180) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_6"))我得到了這樣的解決方案：List<Column> exprs = new ArrayList<>();for (int i = 1; i < 7; i ++ ) { exprs.add(functions.sum(functions.when(ds.col("date_diff").$less$eq(30*i) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_"+Integer.toString(i));}Dataset<Row> res = ds.groupBy(ds.col("uid")).agg(functions.max(ds.col("create_time")).as("create_time"),exprs.toArray(new Column[exprs.size()]));

查看完整描述

1 回答

哆啦的時光機

TA貢獻1779條經驗獲得超6個贊

您可以：

創建一個數據幀（數據集是一個數據幀，與任何其他列的數據集相對），其中包含所有其他列，然后對新創建的列執行聚合。您可以在循環中創建列。
構建一個 UDAF（用戶定義的聚合函數），該函數將在 Java 中處理您的自定義代碼。

希望它有幫助...

反對回復 2022-08-17

1 回答
0 關注
80 瀏覽

關注

添加回答

舉報

0/150

提交

取消

亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空

如何在循環中生成 Spark 數據集聚合長實驗程序？

如何在循環中生成 Spark 數據集聚合長實驗程序？

1 回答

添加回答

如何在循環中生成 Spark 數據集聚合長實驗程序？