Spark--Shuffle

Spark-Shuffle *spark shuffer 分爲兩種 *hashshuffer *一種是基本的hashshuffer * 形成磁盤小文件的個數=map task的個數* reduce task的個數 * 問題:基本的hashshuffer會產生磁盤小文件過多的問題 * 具體問題: * 1.io瓶頸 * 2.oom * 3.如果因爲磁盤小文件過多,頻繁的和資源服務器建立連接,如果在此過
相關文章
相關標籤/搜索