DataFrame/DataSet組的行為/優化假設我們有DataFramedf由下列欄組成:姓名,姓氏,大小,寬度,長度,體重現在我們想要執行幾個操作,例如,我們希望創建包含大小和寬度數據的幾個DataFrame。val df1 = df.groupBy("surname").agg( sum("size") )val df2 = df.groupBy("surname").agg( sum("width") )您可以注意到,其他列,如Length,在任何地方都不使用。斯派克是否足夠聰明,在洗牌階段之前丟棄多余的列,還是它們被隨身攜帶?Wil Run:val dfBasic = df.select("surname", "size", "width")在分組之前對性能有什么影響?
請問DataFrame/DataSet組的行為/優化
慕桂英4014372
2019-08-01 02:01:47