原文地址: https://www.cnblogs.com/yongjian/archive/2017/03/29/6640951.htmlhtml
Hive分區的概念與傳統關係型數據庫分區不一樣。 傳統數據庫的分區方式:就oracle而言,分區獨立存在於段裏,裏面存儲真實的數據,在數據進行插入的時候自動分配分區。 Hive的分區方式:因爲Hive實際是存儲在HDFS上的抽象,Hive的一個分區名對應一個目錄名,子分區名就是子目錄名,並非一個實際字段。sql
因此能夠這樣理解,當咱們在插入數據的時候指定分區,其實就是新建一個目錄或者子目錄,或者在原有的目錄上添加數據文件。數據庫
Hive分區的建立
Hive分區是在建立表的時候用Partitioned by 關鍵字定義的,但要注意,Partitioned by子句中定義的列是表中正式的列,可是Hive下的數據文件中並不包含這些列,由於它們是目錄名。oracle
靜態分區
建立一張靜態分區表par_tab,單個分區oop
create table par_tab (name string,nation string) partitioned by (sex string) row format delimited fields terminated by ',';
這時候經過desc查看的表結構以下性能
hive> desc par_tab; OK name string nation string sex string # Partition Information # col_name data_type comment sex string Time taken: 0.038 seconds, Fetched: 8 row(s)
準備本地數據文件par_tab.txt,內容 「名字/國籍」,將以性別(sex)做爲分區ui
jan,china mary,america lilei,china heyong,china yiku,japan emoji,japan
把數據插入到表(其實load操做至關於把文件移動到HDFS的Hive目錄下)url
load data local inpath '/home/hadoop/files/par_tab.txt' into table par_tab partition (sex='man');
這時候在hive下查詢par_tab表,變成了3列,注意。spa
hive> select * from par_tab; OK jan china man mary america man lilei china man heyong china man yiku japan man emoji japan man Time taken: 0.076 seconds, Fetched: 6 row(s)
查看par_tab目錄結構.net
[hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab drwxr-xr-x - hadoop supergroup 0 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man -rwxr-xr-x 1 hadoop supergroup 71 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man/par_tab.txt
能夠看到,在新建分區表的時候,系統會在hive數據倉庫默認路徑/user/hive/warehouse/下建立一個目錄(表名),再建立目錄的子目錄sex=man(分區名),最後在分區名下存放實際的數據文件。
若是再插入另外一個數據文件數據,如文件
lily,china nancy,china hanmeimei,america
插入數據
load data local inpath '/home/hadoop/files/par_tab_wm.txt' into table par_tab partition (sex='woman');
查看par_tab表目錄結構
[hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab drwxr-xr-x - hadoop supergroup 0 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man -rwxr-xr-x 1 hadoop supergroup 71 2017-03-29 08:25 /user/hive/warehouse/par_tab/sex=man/par_tab.txt drwxr-xr-x - hadoop supergroup 0 2017-03-29 08:35 /user/hive/warehouse/par_tab/sex=woman -rwxr-xr-x 1 hadoop supergroup 41 2017-03-29 08:35 /user/hive/warehouse/par_tab/sex=woman/par_tab_wm.txt
最後查看兩次插入的結果,包含了man和woman
hive> select * from par_tab; OK jan china man mary america man lilei china man heyong china man yiku japan man emoji japan man lily china woman nancy china woman hanmeimei america woman Time taken: 0.136 seconds, Fetched: 9 row(s)
由於分區列是表實際定義的列,因此查詢分區數據時
hive> select * from par_tab where sex='woman'; OK lily china woman nancy china woman hanmeimei america woman Time taken: 0.515 seconds, Fetched: 3 row(s)
下面建立一張靜態分區表par_tab_muilt,多個分區(性別+日期)
hive> create table par_tab_muilt (name string, nation string) partitioned by (sex string,dt string) row format delimited fields terminated by ',' ; hive> load data local inpath '/home/hadoop/files/par_tab.txt' into table par_tab_muilt partition (sex='man',dt='2017-03-29'); [hadoop@hadoop001 files]$ hadoop dfs -lsr /user/hive/warehouse/par_tab_muilt drwxr-xr-x - hadoop supergroup 0 2017-03-29 08:45 /user/hive/warehouse/par_tab_muilt/sex=man drwxr-xr-x - hadoop supergroup 0 2017-03-29 08:45 /user/hive/warehouse/par_tab_muilt/sex=man/dt=2017-03-29 -rwxr-xr-x 1 hadoop supergroup 71 2017-03-29 08:45 /user/hive/warehouse/par_tab_muilt/sex=man/dt=2017-03-29/par_tab.txt
可見,新建表的時候定義的分區順序,決定了文件目錄順序(誰是父目錄誰是子目錄),正由於有了這個層級關係,當咱們查詢全部man的時候,man如下的全部日期下的數據都會被查出來。若是隻查詢日期分區,但父目錄sex=man和sex=woman都有該日期的數據,那麼Hive會對輸入路徑進行修剪,從而只掃描日期分區,性別分區不做過濾(即查詢結果包含了全部性別)。
動態分區
若是用上述的靜態分區,插入的時候必須首先要知道有什麼分區類型,並且每一個分區寫一個load data,太煩人。使用動態分區可解決以上問題,其能夠根據查詢獲得的數據動態分配到分區裏。其實動態分區與靜態分區區別就是不指定分區目錄,由系統本身選擇。
首先,啓動動態分區功能
hive> set hive.exec.dynamic.partition=true;
假設已有一張表par_tab,前兩列是名稱name和國籍nation,後兩列是分區列,性別sex和日期dt,數據以下
hive> select * from par_tab; OK lily china man 2013-03-28 nancy china man 2013-03-28 hanmeimei america man 2013-03-28 jan china man 2013-03-29 mary america man 2013-03-29 lilei china man 2013-03-29 heyong china man 2013-03-29 yiku japan man 2013-03-29 emoji japan man 2013-03-29 Time taken: 1.141 seconds, Fetched: 9 row(s)
如今我把這張表的內容直接插入到另外一張表par_dnm中,並實現sex爲靜態分區,dt動態分區(不指定究竟是哪日,讓系統本身分配決定)
hive> insert overwrite table par_dnm partition(sex='man',dt) > select name, nation, dt from par_tab;
插入後看下目錄結構
drwxr-xr-x - hadoop supergroup 0 2017-03-29 10:32 /user/hive/warehouse/par_dnm/sex=man drwxr-xr-x - hadoop supergroup 0 2017-03-29 10:32 /user/hive/warehouse/par_dnm/sex=man/dt=2013-03-28 -rwxr-xr-x 1 hadoop supergroup 41 2017-03-29 10:32 /user/hive/warehouse/par_dnm/sex=man/dt=2013-03-28/000000_0 drwxr-xr-x - hadoop supergroup 0 2017-03-29 10:32 /user/hive/warehouse/par_dnm/sex=man/dt=2013-03-29 -rwxr-xr-x 1 hadoop supergroup 71 2017-03-29 10:32 /user/hive/warehouse/par_dnm/sex=man/dt=2013-03-29/000000_0
再查看分區數
hive> show partitions par_dnm; OK sex=man/dt=2013-03-28 sex=man/dt=2013-03-29 Time taken: 0.065 seconds, Fetched: 2 row(s)
證實動態分區成功。
注意,動態分區不容許主分區採用動態列而副分區採用靜態列,這樣將致使全部的主分區都要建立副分區靜態列所定義的分區。
動態分區能夠容許全部的分區列都是動態分區列,可是要首先設置一個參數hive.exec.dynamic.partition.mode :
hive> set hive.exec.dynamic.partition.mode; hive.exec.dynamic.partition.mode=strict
它的默認值是strict,即不容許分區列所有是動態的,這是爲了防止用戶有可能原意是隻在子分區內進行動態建分區,可是因爲疏忽忘記爲主分區列指定值了,這將致使一個dml語句在短期內建立大量的新的分區(對應大量新的文件夾),對系統性能帶來影響。 因此咱們要設置:
hive> set hive.exec.dynamic.partition.mode=nostrict;