spark 2節點2g數據orderby性能測試和疑惑點--更多的性能數據

時間 2021-01-11

原文原文鏈接

這次與上次spark 2節點2g數據orderby性能測試和疑惑點的不同點： 1. 輸入數據在兩臺機器上都有拷貝，讀取時直接本地讀取 2. 直接輸出數據到本地，每臺機器上輸出的是自己運行的分區讀取數據時slave5仍然只讀了4個分區，等會可以看出原因，讀取數據時的tasks如下：這就導致了這次的jobs，stages，tasks的分配和上次比可以說是一樣，再上一張shuffle read的總覽

>>阅读原文<<