增量導入mysql
1、說明sql
當在生產環境中,咱們可能會按期從與業務相關的關係型數據庫向Hadoop導入數據,導入數倉後進行後續離線分析。這種狀況下咱們不可能將全部數據從新再導入一遍,因此此時須要數據增量導入。數據庫
增量導入數據分爲兩種方式:app
一是基於遞增列的增量數據導入(Append方式)。oop
二是基於時間列的數據增量導入(LastModified方式)。spa
2、增量導入3d
方式一:Append方式code
好比:有一個訂單表,裏面每一個訂單有一個惟一標識自增列ID,在關係型數據庫中以主鍵形式存在,以前已經將id在1-3的編號的訂單導入到了Hive中,如今一段時間後咱們須要將近期產生的新的訂單數據(id爲四、5的兩條數據)導入Hive,供後續數倉進行分析。此時咱們只須要指定-incremental參數爲append,-last-value參數爲3便可。表示只從大於3後開始導入。blog
一、MYSQL建表rem
CREATE TABLE `appendTest` ( `id` int(11) , `name` varchar(255) )
二、導入數據
insert into appendTest(id,name) values(1,'name1'); insert into appendTest(id,name) values(2,'name2'); insert into appendTest(id,name) values(3,'name3');
三、建立一張跟mysql中的appendTest表同樣的hive表appendTest
sqoop create-hive-table \ --connect jdbc:mysql://192.168.200.100:3306/yang \ --username root \ --password 010209 \ --table appendTest \ --hive-table appendTest
四、進行導入,將id>0的三條數據進行導入
sqoop import \ --connect jdbc:mysql://192.168.200.100:3306/yang \ --username root \ --P \ --table appendTest \ --hive-import \ -m 1 \
--hive-table appendTest \ --incremental append \ --check-column id \ --last-value 0
結果:
五、查看
六、向mysql表appendTest再次插入數據
insert into appendTest(id,name) values(4,'name4');
insert into appendTest(id,name) values(5,'name5');
七、再次執行增量導入
因爲上一次導入的時候,,將--last-value設置爲0,將id>0的三條數據導入後,如今進行導入了時候須要將last-value設置爲3
sqoop import \ --connect jdbc:mysql://192.168.200.100:3306/yang \ --username root \ --P \ --table appendTest \ --hive-import \ -m 1 \
--hive-table appendTest \ --incremental append \ --check-column id \ --last-value 3
結果:
八、查看hive表appendTest
重要參數說明:
九、說明
說明:
增量抽取,須要指定--incremental append,同時指定按照源表中哪一個字段進行增量--check-column id,
並指定hive表appendTest當前最大值--last-value 3。建立sqoop job的目的是,每次執行job之後,sqoop會自動記錄appedndTest的last-value,
下次再執行時,就會自動指定last-value,不須要手工去改了。
方式二:lastModify方式
基於lastModify的方式,要求原表中有time字段,它能指定一個時間戳,讓SQoop把該時間戳以後的數據導入至Hive,由於後續訂單可能狀態會發生變化,變化後time字段時間戳也會發生變化,此時SQoop依然會將相同狀態更改後的訂單導入Hive,固然咱們能夠指定merge-key參數爲id,表示將後續新的記錄與原有記錄合併。
一、Mysql建表
CREATE TABLE lastModifyTest ( id INT, name VARCHAR (20), last_mod TIMESTAMP DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP );
二、導入數據
insert into lastModifyTest(id,name) values(1,'enzo'); insert into lastModifyTest(id,name) values(2,'din'); insert into lastModifyTest(id,name) values(3,'fz'); insert into lastModifyTest(id,name) values(4,'dx'); insert into lastModifyTest(id,name) values(5,'ef');
三、HIve建表
sqoop create-hive-table \
--connect jdbc:mysql://192.168.200.100:3306/yang \
--username root \ --password 010209 \ --table lastModifyTest \ --hive-table lastModifyTest
四、導入數據,將時間之後的數據進行導入
sqoop import \ --connect jdbc:mysql://192.168.200.100:3306/yang \ --username root \ --P \ --table lastModifyTest \ --hive-import \ -m 1 \ --hive-table lastModifyTest \ --incremental lastmodified \ --check-column last_mod \ --last-value "2019-05-14 15:17:23"
結果:
五、查看數據導入結果
六、參數說明
全量導入
將mysql表中所有數據都導入Hive,下面來查看實例:
一、MYSQL數據
二、一次性將mysql表im數據全量導入hive中
sqoop import \ --connect jdbc:mysql://192.168.200.100:3306/yang \ --username root \ --password 010209 \ --table im \ --hive-import \ --hive-table im \ -m 1
減量導入
設置where條件,經過判斷條件能夠判斷減小的數據和增長的數據,控制更加靈活。
sqoop import \ --connect jdbc:mysql://192.168.200.100:3306/yang \ --username root \ --P \ --table appendTest \ --hive-import \ -m 1 \ --incremental append \ --where "age>30" --check-column id \ --last-value 0