spark作兩張大表的join操做,mapPartition和重分區算子的使用策略

Spark中作兩個大hive表的join操做,先讀取過來處理成兩個數據量很大的RDD,若是兩個RDD直接進行join操做,勢必會形成shuffle等致使運行很是緩慢,那麼怎麼優化呢?方法以下:函數 首先,對每一個大hive表生成RDD進行優化優化 1. 對RDD進行repartition重分區spa 先依據Executor數和內存狀況估算出對RDD分爲多少個partition比較合適,由於一個pa
相關文章
相關標籤/搜索