Spark部分:Hash shuffle 和sort shuffle的區別,以及產生磁盤小文件的個數

Hash shuffle和sort shuffle的區別:優化 Hash shuffle:spa 產生的磁盤小文件的個數爲maptask*reducetask排序 每一個分區是一個task內存 磁盤小文件多,I/O增多,產生的GC會增多。hash 這種shuffle產生的磁盤小文件,容易致使OOMspark   這種模式不僅僅產生的磁盤小文件比較多,並且佔用內存也比較多。class 咱們應該下降這
相關文章
相關標籤/搜索