亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

DataFrame/DataSet組的行為/優化

DataFrame/DataSet組的行為/優化

蕭十郎 2019-07-17 16:13:08
DataFrame/DataSet組的行為/優化假設我們有DataFramedf由下列欄組成:姓名,姓氏,大小,寬度,長度,體重現在我們想要執行幾個操作,例如,我們希望創建包含大小和寬度數據的幾個DataFrame。val df1 = df.groupBy("surname").agg( sum("size") )val df2 = df.groupBy("surname").agg( sum("width") )您可以注意到,其他列,如Length,在任何地方都不使用。斯派克是否足夠聰明,在洗牌階段之前丟棄多余的列,還是它們被隨身攜帶?Wil Run:val dfBasic = df.select("surname", "size", "width")在分組之前對性能有什么影響?
查看完整描述

2 回答

?
素胚勾勒不出你

TA貢獻1827條經驗 獲得超9個贊

我試圖搜索和讀取任何解釋跨節點混合操作的源,這些操作的性能和分布是DataFrame(特別是)和RDD在節點上的操作,但是可以找到,給出的只是示例和輸出。你能指導教授這樣的概念的課程嗎(比如RDD中的groupbyKey是昂貴的,而df中的groupby不是)

查看完整回答
反對 回復 2019-07-17
  • 2 回答
  • 0 關注
  • 848 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號