Spark調優

Spark調優: 總共分爲四點: 1.開發調優 2.資源調優 3.數據傾斜 4.shuffle 1.開發調優 1)避免創建重複的RDD(不包含數據,抽象描述) 如果是需要對一個文件進行多次計算,那麼注意,最好就只讀一次。RDD:不可變可分區的彈性分佈式數據集。 2)儘可能複用同一個RDD 3)對多次使用的RDD進行持久化(cache persist)(內存或磁盤) rdd1.map.reduce.
相關文章
相關標籤/搜索