我一直在嘗試在 Spark DataFrame 上執行 GroupBy 和 count() 很長時間但是它需要永遠處理......處理以下行大約需要 13 秒。從我的角度來看,我認為這需要太多時間,但我不知道如何減少處理時間。matched.limit(100).groupBy('Date','Period').agg(count("*").alias('cnt')).show()我正在使用以下配置在 Spark 2.4 上運行:驅動程序:2 個 vCPU 8 GB RAM 10 個執行程序:2 個 vCPU 8 GB RAM誰能給我提示如何解決這個問題?
1 回答

12345678_0001
TA貢獻1802條經驗 獲得超5個贊
我認為這是正確的方法?;ㄙM的時間將取決于那里有多少行。
df.groupBy('Date', 'Period').count().show(10, False)
添加回答
舉報
0/150
提交
取消