亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

為了賬號安全,請及時綁定郵箱和手機立即綁定
已解決430363個問題,去搜搜看,總會有你想問的

Spark:擴展核心數量時的性能數量不一致

Spark:擴展核心數量時的性能數量不一致

猛跑小豬 2019-09-03 16:42:18
我正在使用排序基準測試對Spark進行簡單的擴展測試 - 從1核,最多8核。我注意到8個核心比1核心慢。//run spark using 1 corespark-submit --master local[1] --class john.sort sort.jar data_800MB.txt data_800MB_output//run spark using 8 coresspark-submit --master local[8] --class john.sort sort.jar data_800MB.txt data_800MB_output  每種情況下的輸入和輸出目錄都是HDFS。1核:80秒8個核心:160秒我希望8核性能有x倍的加速。
查看完整描述

2 回答

?
慕容森

TA貢獻1853條經驗 獲得超18個贊

我想添加這些信息:由于Spark會嘗試拆分文件,我們最終會遇到以下情況之一:要么Spark會啟動多個線程來讀取同一個文件,同時通過尋求I / O處罰跨輸入文件,而不是線性讀取?;蛘?,Spark仍將大量讀取文件,然后將其傳播到同時工作中,并產生本地隨機播放,這也會降低性能。再加上排序所需的shuffle,性能明顯下降

查看完整回答
反對 回復 2019-09-03
  • 2 回答
  • 0 關注
  • 865 瀏覽
慕課專欄
更多

添加回答

舉報

0/150
提交
取消
微信客服

購課補貼
聯系客服咨詢優惠詳情

幫助反饋 APP下載

慕課網APP
您的移動學習伙伴

公眾號

掃描二維碼
關注慕課網微信公眾號