Spark部分:Hash shuffle 和sort shuffle的區別,以及產生磁盤小文件的個數

Hash shuffle和sort shuffle的區別: Hash shuffle: 產生的磁盤小文件的個數爲maptask*reducetask 每個分區是一個task 磁盤小文件多,I/O增多,產生的GC會增多。 這種shuffle產生的磁盤小文件,容易導致OOM   這種模式不單單產生的磁盤小文件比較多,而且佔用內存也比較多。 我們應該降低這種磁盤之間的接觸。 Hash shuffle的優
相關文章
相關標籤/搜索