關於Hive使用動態分區插入數據詳解

時間 2020-08-10

標籤關於 hive 使用動態分區插入數據詳解欄目 Hadoop 简体版

原文原文鏈接

1.建立一個單一字段分區表node

hive> create table dpartition(id int ,name string )ide

partitioned by(ct string );ci

2.往表裏裝載數據，而且動態創建分區，以city創建動態分區get

hive> set hive.exec.dynamic.partition=true; #開啓動態分區，默認是falsestring

set hive.exec.dynamic.partition.mode=nonstrict; #開啓容許全部分區都是動態的，不然必需要有靜態分區才能使用。it

insert overwrite table dpartitionio

partition(ct)table

select id ,name,city from mytest_tmp2_p;class

要點：由於dpartition表中只有兩個字段，因此當咱們查詢了三個字段時（多了city字段），因此係統默認以最後一個字段city爲分區名，由於分區表的分區字段默認也是該表中的字段，且依次排在表中字段的最後面。因此分區須要分區的字段只能放在後面，不能把順序弄錯。若是咱們查詢了四個字段的話，則會報錯，由於該表加上分區字段也才三個。要注意系統是根據查詢字段的位置推斷分區名的，而不是字段名稱。test

--查看可知，hive已經完成了以city字段爲分區字段，實現了動態分區。

hive > show partitions dpartition;

partition

ct=beijing

ct=beijing1

注意：使用，insert...select 往表中導入數據時，查詢的字段個數必須和目標的字段個數相同，不能多，也不能少,不然會報錯。可是若是字段的類型不一致的話，則會使用null值填充，不會報錯。而使用load data形式往hive表中裝載數據時，則不會檢查。若是字段多了則會丟棄，少了則會null值填充。一樣若是字段類型不一致，也是使用null值填充。

3.多個分區字段時，實現半自動分區（部分字段靜態分區，注意靜態分區字段要在動態前面）

1.建立一個只有一個字段，兩個分區字段的分區表

hive (fdm_sor)> create table ds_parttion(id int )

> partitioned by (state string ,ct string );

2.往該分區表半動態分區插入數據

hive>

set hive.exec.dynamici.partition=true;

set hive.exec.dynamic.partition.mode=nonstrict;

insert overwrite table ds_parttion

partition(state='china',ct) #state分區爲靜態，ct爲動態分區，以查詢的city字段爲分區名

select id ,city from mytest_tmp2_p;

3.查詢結果顯示：