spark-大表join優化方案

數據量: 1~2G左右的表與3~4T的大表進行Joinweb 拆分 將任務數據分爲多個結果RDD,將各個RDD的數據寫入臨時的hdfs目錄,最後合併svg 取所需的字段和數據,並去重,減小data shuffle的規模優化 調整並行度和shuffle參數spa spark-submit 參數code #提升shuffle階段的任務並行度,下降單個任務的內存佔用 --conf spark.defau
相關文章
相關標籤/搜索