我正在使用Java Spark來統計數據集。我需要通過許多exper聚合數據集,因此代碼又長又難看。expers有一些共同的邏輯,我可以用循環生成exper嗎?下面是代碼示例,實際代碼有數百行重復代碼:Dataset<Row> res = ds.groupBy(ds.col("uid")).agg(functions.max(ds.col("create_time")).as("create_time"),functions.sum(functions.when(ds.col("date_diff").$less$eq(30).and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_1"), functions.sum(functions.when(ds.col("date_diff").$less$eq(60) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_2"), functions.sum(functions.when(ds.col("date_diff").$less$eq(90) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_3"), functions.sum(functions.when(ds.col("date_diff").$less$eq(120) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_4"), functions.sum(functions.when(ds.col("date_diff").$less$eq(150) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_5"), functions.sum(functions.when(ds.col("date_diff").$less$eq(180) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_6"))我得到了這樣的解決方案:List<Column> exprs = new ArrayList<>();for (int i = 1; i < 7; i ++ ) { exprs.add(functions.sum(functions.when(ds.col("date_diff").$less$eq(30*i) .and(ds.col("call_type").isin(callTypeOut)), ds.col("duration"))).as("caller_call_time_"+Integer.toString(i));}Dataset<Row> res = ds.groupBy(ds.col("uid")).agg(functions.max(ds.col("create_time")).as("create_time"),exprs.toArray(new Column[exprs.size()]));
1 回答

哆啦的時光機
TA貢獻1779條經驗 獲得超6個贊
您可以:
創建一個數據幀(數據集是一個數據幀,與任何其他列的數據集相對),其中包含所有其他列,然后對新創建的列執行聚合。您可以在循環中創建列。
構建一個 UDAF(用戶定義的聚合函數),該函數將在 Java 中處理您的自定義代碼。
希望它有幫助...
添加回答
舉報
0/150
提交
取消