1、分桶簡介
- 桶是經過對指定列進行哈希計算來實現的,經過哈希值將一個列名下的數據切分爲一組桶,並使每一個桶對應於該列名下的一個存儲文件
- 對於每個表或者分區,Hive 能夠進一步組織成桶,也就是更爲細粒度的數據範圍劃分
- Bucket是對指定列進行hash,而後根據hash值除以桶的個數進行求餘,決定該條記錄存放在哪一個桶中
2、分桶操做
1. 建立桶表:java
create table student( id int, age int, name string ) partitioned by (stat_date string) clustered by (id) sorted by(age) into 2 bucket row format delimited fields terminated by ',';
數據先partitioned by (stat_date string),再clustered by (id) sorted by(age) into 2 bucket,先分區再進行分桶ide
2. 設置環境變量:讓程序自動分配reduce的數量從而適配相應的bucket數量測試
set hive.enforce.bucketing=true;
3. 插入數據:從臨時表導入數據,須要通過MR優化
from student_tmp insert overwrite table student partition(stat_date='2019-10-08') select id,age,name where stat_date='2019-10-07' sort by age;
4. 查看文件目錄:spa
hive> dfs -ls /user/hive/warehouse/student1/stat_date=2019-10-08; 兩個目錄: /user/hive/warehouse/student1/stat_date=2019-10-08/000000_0 /user/hive/warehouse/student1/stat_date=2019-10-08/000001_0
5. 查看 sampling 數據code
hive> select * from student1 > TableSample(bucket 1 out of 2 on id);
這裏指的是查詢 2/2 = 1個bucket數據,從第1個bucket開始orm
tablesample是抽樣語句,語法:TABLESAMPLE(BUCKET x OUT OF y)開發
- x表示從哪一個bucket開始抽取
- y表示抽樣的比例,桶數/y
例如:桶數64,tablesample(bucket 3 out of 32)
總共抽取(64/32=)2個bucket的數據,分別爲第3個bucket和第(3+32=)35個bucket的數據string
3、分桶的優缺點
- 分桶取樣更高效,由於在處理大規模的數據集時,在開發、測試階段將全部的數據所有處理一遍可能不太現實,若是一個表已經對某一列製做了bucket,就能夠採樣全部桶中指定序號的某個桶,這就減小了訪問量
- 爲了得到更好的查詢處理效率, 桶爲了表提供了額外的結構,Hive在處理某些查詢時利用這個結構,能給有效地提升查詢效率
- 鏈接兩個在相同列上劃分了桶的表,可使用 Map-side Join 的高效實現,優化join操做(下一篇筆記會講)
- 缺點:使用業務字段來查詢的話,沒有什麼效果