Hive 優化

一、Hadoop 計算框架的特性 1、什麼是數據傾斜? •由於數據分佈不均勻,造成數據大量的集中到一點,造成數據熱點。   2、Hadoop框架的特性 •不怕數據大,怕數據傾斜。 •jobs數比較多的作業運行效率相對比較低,如子查詢比較多。 •sum,count,max,min等聚集函數,不會有數據傾斜問題 3、容易數據傾斜情況 ·group by ·count(distinct ),在數據量大的
相關文章
相關標籤/搜索