spark作兩張大表的join操做，mapPartition和重分區算子的使用策略

時間 2020-01-13

標籤 spark 兩張 join mappartition 分區算子使用策略欄目 Spark 简体版

原文原文鏈接

Spark中作兩個大hive表的join操做，先讀取過來處理成兩個數據量很大的RDD，若是兩個RDD直接進行join操做，勢必會形成shuffle等致使運行很是緩慢，那麼怎麼優化呢？方法以下：函數首先，對每一個大hive表生成RDD進行優化優化 1. 對RDD進行repartition重分區spa 先依據Executor數和內存狀況估算出對RDD分爲多少個partition比較合適，由於一個pa

>>阅读原文<<