本文版權歸mephisto和博客園共有,歡迎轉載,但須保留此段聲明,並給出原文連接,謝謝合做。html
文章是哥(mephisto)寫的,SourceLinknode
上一篇,咱們介紹了Hive的數據多種方式導入,這樣咱們的Hive就有了數據來源了,但有時候咱們可能須要純粹的導出,或者集羣Hive數據的遷移(不一樣集羣,不一樣版本),咱們就能夠經過這兩章的知識來實現。數據庫
下面咱們開始介紹hive的數據導出,以及集羣Hive數據的遷移進行描述。app
一:說明
將上篇中從其餘表導入語法進行簡單的修改,就能夠將查詢的結果寫入到文件系統。oop
二:語法:
Standard syntax: INSERT OVERWRITE [LOCAL] DIRECTORY directory1 [ROW FORMAT row_format] [STORED AS file_format] (Note: Only available starting with Hive 0.11.0) SELECT ... FROM ... Hive extension (multiple inserts): FROM from_statement INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1 [INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select_statement2] ... row_format : DELIMITED [FIELDS TERMINATED BY char [ESCAPED BY char]] [COLLECTION ITEMS TERMINATED BY char] [MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char] [NULL DEFINED AS char] (Note: Only available starting with Hive 0.13)三:寫入到本地
若是使用LOCAL,則數據會寫入到本地測試
四:寫入到集羣
若是不使用LOCAL,則數據會寫到指定的HDFS中,若是沒寫全路徑,則使用Hadoop的配置項
fs.default.name
(NameNode的URI)。spa五:實戰
修改tmp文件夾權限(這裏只是測試,因此使用最大權限)3d
chmod 777 tmp進入Hivecode
sudo -u hdfs hive
將上一篇中的score表數據導出到本地orm
insert overwrite local directory '/data/tmp/score' select * from score;咱們能夠看到/data/tmp/score/目錄下有文件。
cd /data/tmp/score
ll這樣咱們就把hive的數據導出到本地了。
下面咱們使用不帶local參數的命令,將hive表數據導到hdfs中
insert overwrite directory '/data/tmp/score' select * from score;咱們使用hdfs的ls命令查看
hadoop fs -ls /data/tmp/score這裏文件只有一個,和上面的不同,但總的內容是同樣的,上面一樣的數據導出,有時候也只有一個文件。這裏就不作考究了。
一:介紹
在官網裏,咱們能夠看到EXPORT和IMPORT,該功能從Hive0.8開始加入進來。
二:Export/Import
導出命令根據元數據導出表或者分區,輸出位置能夠是另外一個Hadoop集羣或者HIVE實例。支持帶有分區的表。導出的元數據存儲在目標目錄,數據文件存儲在子目錄。
導入導出的源和目標的元數據存儲DBMS能夠是不一樣的關係型數據庫。
三:Export語法
EXPORT TABLE tablename [PARTITION (part_column="value"[, ...])] TO 'export_target_path'四:Import語法
IMPORT [[EXTERNAL] TABLE new_or_original_tablename [PARTITION (part_column="value"[, ...])]] FROM 'source_path' [LOCATION 'import_target_path']五:官方例子
簡單導入導出
export table department to 'hdfs_exports_location/department'; import from 'hdfs_exports_location/department';更名導入導出
export table department to 'hdfs_exports_location/department'; import table imported_dept from 'hdfs_exports_location/department';分區導出
export table employee partition (emp_country="in", emp_state="ka") to 'hdfs_exports_location/employee'; import from 'hdfs_exports_location/employee';分區導入
export table employee to 'hdfs_exports_location/employee'; import table employee partition (emp_country="us", emp_state="tn") from 'hdfs_exports_location/employee';指定導入位置
export table department to 'hdfs_exports_location/department'; import table department from 'hdfs_exports_location/department' location 'import_target_location/department';做爲外部表導入
export table department to 'hdfs_exports_location/department'; import external table department from 'hdfs_exports_location/department';
一:介紹
雖然官方的Export/Import命令很強大,但在實際使用中,多是版本的不一樣,會出現沒法導入的狀況,本身在這塊也琢磨了下,總結出本身的一套帶有分區的Hive表數據遷移方案,該方案在Cloudera和Hontorworks的集羣中成功遷移過,Hive版本也不一致。
二:導出數據
因爲Cloudera的發行版本CDH-5.3.3的Hive版本低於0.8因此用這個做爲數據源。
建立帶分區表score
create table score ( id int, studentid int, score double ) partitioned by (openingtime string);
根據上一篇中導入數據的方式導入7,8月數據
load data local inpath '/data/tmp/score_7.txt' overwrite into table score PARTITION (openingtime=201507);參考咱們上面的導出到本地仍是放在/data/tmp/score下
insert overwrite local directory '/data/tmp/score' select * from score;三:遷移數據
在另一個集羣新建/data/tmp目錄
mkdir -p /data/tmp/score
拷貝數據
scp /data/tmp/score/* root@h188:/data/tmp/score/查看
cd /data/tmp/score ll
四:建立分區表和沒有分區的臨時表
被導入的集羣是Hortonworks的HDP-2.7.1發行版本。
分區表就是咱們最終的目標表,沒有分區的臨時表時過分用的。
進入Hive
sudo -u hdfs hive
建立帶分區的表
create table score ( id int, studentid int, score double ) partitioned by (openingtime string);建立不帶分區的臨時表
create table score1( id int, studentid int, score double, openingtime string
);五:將數據導入臨時表
load data local inpath '/data/tmp/score' into table score1;咱們查下導進來的數據
select * from score1;六:從臨時表導入到分區表
set hive.exec.dynamic.partition=true; set hive.exec.dynamic.partition.mode=nonstrict; set hive.exec.max.dynamic.partitions.pernode=10000; #導入 insert overwrite table score partition(openingtime) select * from score1;查詢
select * from score;咱們在hdfs中查看下hive的文件
hadoop fs -ls -R /apps/hive/warehouse/score
能夠明顯的看到根據openingtime分區了。
七:刪除臨時表
drop table score1八:刪除臨時數據
rm -rf /data/tmp/score
這樣咱們的Hive集羣數據遷移告一段落。
--------------------------------------------------------------------
到此,本章節的內容講述完畢。
本文版權歸mephisto和博客園共有,歡迎轉載,但須保留此段聲明,並給出原文連接,謝謝合做。
文章是哥(mephisto)寫的,SourceLink