sqoop將mysql數據導入hbase、hive的血與淚

時間 2019-12-14

標籤 sqoop mysql 數據導入 hbase hive 欄目 MySQL 简体版

原文原文鏈接

1、需求：（將如下這張表數據導入mysql） mysql

由此，編寫以下sqoop導入命令linux

sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:mysql://192.168.1.9/spider --username root --password root --table test_goods --hbase-create-table --hbase-table t_goods  --column-family cf --hbase-row-key id -m 1

一切看着都很正常，接下來開始執行命令，報以下錯誤：
一、 Error during import: No primary key could be found for table *
報錯緣由就是指定的mysql表名不是大寫，因此mysql表名必須大寫
二、 Could not insert row with null value for row-key column
報錯緣由是沒有指定mysql的列名，因此必須指定列名，而且hbase-row-key id 中的id，必須在–columns中顯示。 --columns ID,GOODS_NAME, GOODS_PRICE
三、 Error parsing arguments for import Unrecognized argument
報錯緣由是在指定mysql的列名時，用逗號隔開的時候我多加了空格，因此在
Columns後顯示的列名只能用逗號隔開，不要帶空格sql

將以上三個問題排除後：個人最新導入命令變爲以下：數據庫

sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:mysql://192.168.1.9:3306/spider --username root --password root --table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE --hbase-create-table --hbase-table t_goods --column-family cf --hbase-row-key ID --where "ID >= 5" -m 1

注意：這裏有個小問題：記得將id>=5引發來併發

查看hbase,數據已經成功導入oracle

最後我將命令寫入一個xxx文件，經過sqoop –options-file xxx 執行導入命令app

錯誤寫法以下：ide

import
-D sqoop.hbase.add.row.key=true 
--connect jdbc:mysql://192.168.1.9:3306/spider 
--username root 
--password root 
--table TEST_GOODS 
--columns ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table 
--hbase-table test_goods 
--column-family cf 
--hbase-row-key ID 
--where "ID >= 5"
-m 1

錯誤緣由：參數的名稱和參數的值沒有進行回車換行oop

正確寫法：spa

import 
-D 
sqoop.hbase.add.row.key=true 
--connect 
jdbc:mysql://192.168.1.9:3306/spider 
--username 
root 
--password 
root 
--table 
TEST_GOODS 
--columns 
ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table 
--hbase-table 
tt_goods 
--column-family 
cf 
--hbase-row-key 
ID 
--where 
ID>=5 
-m 
1

注：參數含義解釋

-D sqoop.hbase.add.row.key=true 是否將rowkey相關字段寫入列族中，默認爲false，默認狀況下你將在列族中看不到任何row key中的字段。注意，該參數必須放在import以後。
--connect 數據庫鏈接字符串
--username –password  mysql數據庫的用戶名密碼
--table Test_Goods表名，注意大寫
--hbase-create-table  若是hbase中該表不存在則建立
--hbase-table   對應的hbase表名
--hbase-row-key   hbase表中的rowkey,注意格式
--column-family   hbase表的列族
--where    導入是mysql表的where條件，寫法和sql中同樣
--split-by CREATE_TIME   默認狀況下sqoop使用4個併發執行任務，須要制訂split的列，若是不想使用併發，能夠用參數 --m 1

到此，bug解決完成！！！

2、知識拓展，定時增量導入

一、Sqoop增量導入

sqoop import -D sqoop.hbase.add.row.key=true --connect jdbc:mysql://192.168.1.9:3306/spider --username root --password root --table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE --hbase-create-table --hbase-table t_goods --column-family cf --hbase-row-key ID --incremental lastmodified --check-column U_DATE --last-value '2017-06-27' --split-by U_DATE

--incremental lastmodified 增量導入支持兩種模式 append 遞增的列；lastmodified時間戳。
--check-column 增量導入時參考的列
--last-value 最小值，這個例子中表示導入2017-06-27到今天的值

二、Sqoop job：

sqoop job --create testjob01 --import --connect jdbc:mysql://192.168.1.9:3306/spider --username root --password root --table TEST_GOODS    --columns ID,GOODS_NAME,GOODS_PRICE --hbase-create-table --hbase-table t_goods --column-family cf --hbase-row-key ID -m 1

設置定時執行以上sqoop job
使用linux定時器：crontab -e
例如天天執行

0 0 * * * /opt/local/sqoop-1.4.6/bin/sqoop job ….
--exec testjob01

3、數據從mysql導入hive中後，出現數據不一致狀況

咱們運行hadoop fs -cat /user/hadoop/student/part-m-00000,能夠看到原來字段與字段之間都用‘,’分隔開，這是sqoop默認的，這時候，若是一個字段值當中包含‘,’，再向hive中插入數據時分隔就會出錯。由於hive也是用‘,’分隔的。
解決方法：建議用‘001'來進行sqoop 導入數據時的分割。也就是--fields-terminated-by <char>參數。
例子：

sqoop import --connect "jdbc:oracle:thin:@//localhost:1521/student" --password "***" --username "***" --query "select * from student where name='zhangsan' and class_id='003' and \$CONDITIONS" --target-dir "/user/hadoop/student" --fields-terminated-by "\001" --verbose -m 1