Sqoop導入關係數據庫到Hive

Sqoop 是 apache 下用於 RDBMS 和 HDFS 互相導數據的工具。本文以 mysql 數據庫爲例,實現關係數據庫導入到 hdfs 和 hive。mysql

1. 安裝 Sqoop

使用 rpm 安裝便可。算法

yum install sqoop sqoop-metastore -y
安裝完以後須要下載 mysql jar 包到 sqoop 的 lib 目錄。

這裏使用 hive 的 metastore 的 mysql 數據庫做爲關係數據庫,以 TBLS 表爲例,該表結構和數據以下:sql

mysql> select * from TBLS limit 3;
+------+-----------+-----+----------------+-----+--------+------+---------+----------------+------------------+-------------------+
|TBL_ID|CREATE_TIME|DB_ID|LAST_ACCESS_TIME|OWNER|RETENTI | SD_ID| TBL_NAME| TBL_TYPE       |VIEW_EXPANDED_TEXT| VIEW_ORIGINAL_TEXT|
+------+-----------+-----+----------------+-----+--------+------+---------+----------------+------------------+-------------------+
|    34|1406784308 |    8|               0|root |       0|    45| test1   | EXTERNAL_TABLE | NULL             | NULL              |
|    40|1406797005 |    9|               0|root |       0|    52| test2   | EXTERNAL_TABLE | NULL             | NULL              |
|    42|1407122307 |    7|               0|root |       0|    59| test3   | EXTERNAL_TABLE | NULL             | NULL              |
+------+-----------+-----+----------------+-----+--------+------+---------+----------------+------------------+-------------------+

2. 使用

2.1 命令說明

查看 sqoop 命令說明:數據庫

$ sqoop help
usage: sqoop COMMAND [ARGS]

Available commands:
  codegen            Generate code to interact with database records
  create-hive-table  Import a table definition into Hive
  eval               Evaluate a SQL statement and display the results
  export             Export an HDFS directory to a database table
  help               List available commands
  import             Import a table from a database to HDFS
  import-all-tables  Import tables from a database to HDFS
  list-databases     List available databases on a server
  list-tables        List available tables in a database
  version            Display version information

See 'sqoop help COMMAND' for information on a specific command.

你也能夠查看某一個命令的使用說明:apache

$ sqoop import --help
$ sqoop help import

你也能夠使用別名來代替 sqoop (toolname)bash

$ sqoop-import

sqoop import 的一個示例以下:併發

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS

你還能夠使用 --options-file 來傳入一個文件,使用這種方式能夠重用一些配置參數:app

$ sqoop --options-file /users/homer/work/import.txt --table TEST

/users/homer/work/import.txt 文件內容以下:工具

import
--connect
jdbc:mysql://192.168.56.121:3306/metastore
--username
hiveuser
--password 
redhat

2.2 導入數據到 hdfs

使用 sqoop-import 命令能夠從關係數據庫導入數據到 hdfs。oop

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --target-dir /user/hive/result

注意:

  • mysql jdbc url 請使用 ip 地址
  • 若是重複執行,會提示目錄已經存在,能夠手動刪除
  • 若是不指定 --target-dir,導入到用戶家目錄下的 TBLS 目錄

你還能夠指定其餘的參數:

參數 說明
--append 將數據追加到hdfs中已經存在的dataset中。使用該參數,sqoop將把數據先導入到一個臨時目錄中,而後從新給文件命名到一個正式的目錄中,以免和該目錄中已存在的文件重名。
--as-avrodatafile 將數據導入到一個Avro數據文件中
--as-sequencefile 將數據導入到一個sequence文件中
--as-textfile 將數據導入到一個普通文本文件中,生成該文本文件後,能夠在hive中經過sql語句查詢出結果。
--boundary-query <statement> 邊界查詢,也就是在導入前先經過SQL查詢獲得一個結果集,而後導入的數據就是該結果集內的數據,格式如:--boundary-query 'select id,no from t where id = 3',表示導入的數據爲id=3的記錄,或者 select min(<split-by>), max(<split-by>) from <table name>,注意查詢的字段中不能有數據類型爲字符串的字段,不然會報錯
--columns<col,col> 指定要導入的字段值,格式如:--columns id,username
--direct 直接導入模式,使用的是關係數據庫自帶的導入導出工具。官網上是說這樣導入會更快
--direct-split-size 在使用上面direct直接導入的基礎上,對導入的流按字節數分塊,特別是使用直連模式從PostgreSQL導入數據的時候,能夠將一個到達設定大小的文件分爲幾個獨立的文件。
--inline-lob-limit 設定大對象數據類型的最大值
-m,--num-mappers 啓動N個map來並行導入數據,默認是4個,最好不要將數字設置爲高於集羣的節點數
--query,-e <sql> 從查詢結果中導入數據,該參數使用時必須指定–target-dir–hive-table,在查詢語句中必定要有where條件且在where條件中須要包含 \$CONDITIONS,示例:--query 'select * from t where \$CONDITIONS ' --target-dir /tmp/t –hive-table t
--split-by <column> 表的列名,用來切分工做單元,通常後面跟主鍵ID
--table <table-name> 關係數據庫表名,數據從該表中獲取
--delete-target-dir 刪除目標目錄
--target-dir <dir> 指定hdfs路徑
--warehouse-dir <dir> --target-dir 不能同時使用,指定數據導入的存放目錄,適用於hdfs導入,不適合導入hive目錄
--where 從關係數據庫導入數據時的查詢條件,示例:--where "id = 2"
-z,--compress 壓縮參數,默認狀況下數據是沒被壓縮的,經過該參數能夠使用gzip壓縮算法對數據進行壓縮,適用於SequenceFile, text文本文件, 和Avro文件
--compression-codec Hadoop壓縮編碼,默認是gzip
--null-string <null-string> 可選參數,若是沒有指定,則字符串null將被使用
--null-non-string <null-string> 可選參數,若是沒有指定,則字符串null將被使用

示例程序:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --columns "tbl_id,create_time" --where "tbl_id > 1" --target-dir /user/hive/result

使用 sql 語句

參照上表,使用 sql 語句查詢時,須要指定 $CONDITIONS

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --query 'SELECT * from TBLS where \$CONDITIONS ' --split-by tbl_id -m 4 --target-dir /user/hive/result

上面命令經過 -m 1 控制併發的 map 數。

使用 direct 模式:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --delete-target-dir --direct --default-character-set UTF-8 --target-dir /user/hive/result

指定文件輸出格式:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir  --target-dir /user/hive/result

這時候查看 hdfs 中數據(觀察分隔符是否爲製表符):

$ hadoop fs -ls result
Found 5 items
-rw-r--r--   3 root hadoop          0 2014-08-04 16:07 result/_SUCCESS
-rw-r--r--   3 root hadoop         69 2014-08-04 16:07 result/part-m-00000
-rw-r--r--   3 root hadoop          0 2014-08-04 16:07 result/part-m-00001
-rw-r--r--   3 root hadoop        142 2014-08-04 16:07 result/part-m-00002
-rw-r--r--   3 root hadoop         62 2014-08-04 16:07 result/part-m-00003

$ hadoop fs -cat result/part-m-00000
34    1406784308    8    0    root    0    45    test1    EXTERNAL_TABLE    null    null    null

$ hadoop fs -cat result/part-m-00002
40    1406797005    9    0    root    0    52    test2    EXTERNAL_TABLE    null    null    null
42    1407122307    7    0    root    0    59    test3    EXTERNAL_TABLE    null    null    null

指定空字符串:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --target-dir /user/hive/result

若是須要指定壓縮:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --compression-codec "com.hadoop.compression.lzo.LzopCodec" --target-dir /user/hive/result

附:可選的文件參數以下表。

參數 說明
--enclosed-by <char> 給字段值先後加上指定的字符,好比雙引號,示例:--enclosed-by '\"',顯示例子:"3","jimsss","dd@dd.com"
--escaped-by <char> 給雙引號做轉義處理,如字段值爲"測試",通過 --escaped-by "\\" 處理後,在hdfs中的顯示值爲:\"測試\",對單引號無效
--fields-terminated-by <char> 設定每一個字段是以什麼符號做爲結束的,默認是逗號,也能夠改成其它符號,如句號.,示例如:--fields-terminated-by
--lines-terminated-by <char> 設定每條記錄行之間的分隔符,默認是換行串,但也能夠設定本身所須要的字符串,示例如:--lines-terminated-by "#" 以#號分隔
--mysql-delimiters Mysql默認的分隔符設置,字段之間以,隔開,行之間以換行\n隔開,默認轉義符號是\,字段值以單引號'包含起來。
--optionally-enclosed-by <char> enclosed-by是強制給每一個字段值先後都加上指定的符號,而--optionally-enclosed-by只是給帶有雙引號或單引號的字段值加上指定的符號,故叫可選的

2.3 建立 hive 表

生成與關係數據庫表的表結構對應的HIVE表:

$ sqoop create-hive-table --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS
參數 說明
--hive-home <dir> Hive的安裝目錄,能夠經過該參數覆蓋掉默認的hive目錄
--hive-overwrite 覆蓋掉在hive表中已經存在的數據
--create-hive-table 默認是false,若是目標表已經存在了,那麼建立任務會失敗
--hive-table 後面接要建立的hive表
--table 指定關係數據庫表名

2.4 導入數據到 hive

執行下面的命令會將 mysql 中的數據導入到 hdfs 中,而後建立一個hive 表,最後再將 hdfs 上的文件移動到 hive 表的目錄下面。

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite --create-hive-table --hive-table dw_srclog.TBLS --delete-target-dir

說明:

  • 能夠在 hive 的表名前面指定數據庫名稱
  • 能夠經過 --create-hive-table 建立表,若是表已經存在則會執行失敗

接下來能夠查看 hive 中的數據:

$ hive -e 'select * from dw_srclog.tbls'
34    1406784308    8    0    root    0    45    test1    EXTERNAL_TABLE    null    null    NULL
40    1406797005    9    0    root    0    52    test2    EXTERNAL_TABLE    null    null    NULL
42    1407122307    7    0    root    0    59    test3    EXTERNAL_TABLE    null    null    NULL

直接查看文件內容:

$ hadoop fs -cat /user/hive/warehouse/dw_srclog.db/tbls/part-m-00000
34140678430880root045go_goodsEXTERNAL_TABLEnullnullnull
40140679700590root052merchantEXTERNAL_TABLEnullnullnull

從上面可見,數據導入到 hive 中以後分隔符爲默認分隔符,參考上文你能夠經過設置參數指定其餘的分隔符。

另外,Sqoop 默認地導入空值(NULL)爲 null 字符串,而 hive 使用 N 去標識空值(NULL),故你在 import 或者 export 時候,須要作相應的處理。在 import 時,使用以下命令:

$ sqoop import  ... --null-string '\\N' --null-non-string '\\N'

在導出時,使用下面命令:

$ sqoop import  ... --input-null-string '' --input-null-non-string ''

一個完整的例子以下:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --hive-import --hive-overwrite --create-hive-table --hive-table dw_srclog.TBLS --null-string '\\N' --null-non-string '\\N' --compression-codec "com.hadoop.compression.lzo.LzopCodec"

2.5 增量導入

參數 說明
--check-column (col) 用來做爲判斷的列名,如id
--incremental (mode) append:追加,好比對大於last-value指定的值以後的記錄進行追加導入。lastmodified:最後的修改時間,追加last-value指定的日期以後的記錄
--last-value (value) 指定自從上次導入後列的最大值(大於該指定的值),也能夠本身設定某一值

2.6 合併 hdfs 文件

將HDFS中不一樣目錄下面的數據合在一塊兒,並存放在指定的目錄中,示例如:

sqoop merge –new-data /test/p1/person –onto /test/p2/person –target-dir /test/merged –jar-file /opt/data/sqoop/person/Person.jar –class-name Person –merge-key id

其中,–class-name 所指定的 class 名是對應於 Person.jar 中的 Person 類,而 Person.jar 是經過 Codegen 生成的

參數 說明
--new-data <path> Hdfs中存放數據的一個目錄,該目錄中的數據是但願在合併後能優先保留的,原則上通常是存放越新數據的目錄就對應這個參數。
--onto <path> Hdfs中存放數據的一個目錄,該目錄中的數據是但願在合併後能被更新數據替換掉的,原則上通常是存放越舊數據的目錄就對應這個參數。
--merge-key <col> 合併鍵,通常是主鍵ID
--jar-file <file> 合併時引入的jar包,該jar包是經過Codegen工具生成的jar包
--class-name <class> 對應的表名或對象名,該class類是包含在jar包中的。
--target-dir <path> 合併後的數據在HDFS裏的存放目錄
相關文章
相關標籤/搜索