hive的性能優化

一、計算數據優化 計算數據優化主要有兩種思路,一種是減小處理數據量;一種是解決數據傾斜。數據傾斜通常能夠分爲三種:html  Mapper階段數據傾斜 Join階段數據傾斜 Reduce階段數據傾斜 1.1 Mapper階段數據傾斜node 主要有兩種方式:sql 能夠修改讀取數據的表的任務,最後插入數據時按照均衡的key值從新分佈。也就是在最後加上distribute by *** 若是Mapp
相關文章
相關標籤/搜索