Sqoop將mysql數據導入hbase的血與淚

Sqoop將mysql數據導入hbase的血與淚(整整搞了大半天) java

版權聲明:本文爲yunshuxueyuan原創文章。
如需轉載請標明出處: https://my.oschina.net/yunshuxueyuan/blog
QQ技術交流羣:299142667mysql

1、 問題如何產生linux

龐老師只講解了mysql和hdfs,mysq與hive的數據互導,所以決定研究一下將mysql數據直接導入hbase,這時出現了一系列問題。sql

心酸史:數據庫

2、 開始具體解決問題併發

 

需求:(將如下這張表數據導入mysql)app

由此,編寫以下sqoop導入命令分佈式

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9/spider --username root --password root 
--table test_goods --hbase-create-table --hbase-table t_goods  
--column-family cf --hbase-row-key id -m 1

一切看着都很正常,接下來開始執行命令,報以下錯誤:ide

一、oop

Error during import: No primary key could be found for table *

報錯緣由就是指定的mysql表名不是大寫,因此mysql表名必須大寫

二、 

Could not insert row with null value for row-key column

報錯緣由是沒有指定mysql的列名,因此必須指定列名,而且hbase-row-key id 中的id,必須在–columns中顯示。  --columns ID,GOODS_NAME, GOODS_PRICE

三、 

Error parsing arguments for import Unrecognized argument

報錯緣由是在指定mysql的列名時,用逗號隔開的時候我多加了空格,因此在Columns後顯示的列名只能用逗號隔開,不要帶空格。

將以上三個問題排除後:個人最新導入命令變爲以下:

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns id,goods_name,goods_price 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key id --where "id >= 5" -m 1

注意:這裏有個小問題:記得將id>=5引發來

再次執行導入命令:出現以下狀況(卡了好長時間)

發下map執行完成了,可是也就只卡在這裏不動了,mapreduce任務一直在後臺起着,一段時間後死掉,在這期間不停的執行導入命令和殺掉mapreduce的job

hadoop job -list  查看mapreduce 的job列表

hadoop job -kill  job_id    殺死某個Job

通過長時間的測試,忽然意識到當前用的是Hbase僞分佈式,一會兒恍然大悟:

緣由:由於當前環境爲hbase的僞分佈式,因此hbase的數據是存在本地磁盤上的,

而且由自帶的zookeeper進行管理。而將mysql數據導入hbase的原理其實就是將數據導入hdfs,因此要想導入成功,存放hbase的數據地址應該在hdfs上才能夠。因此如何解決這個問題,我想你們知道了,那就是開啓hbase徹底分佈式。

通過一頓折騰將虛擬機回覆到hbase徹底分佈式的快照,安裝好sqoop,進行最終的測試!

最終執行的導入命令以下:(完整的導入命令)

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key ID --where "ID >= 5" -m 1

終於見到久違的頁面:

查看hbase,數據已經成功導入

最後我將命令寫入一個xxx文件,經過sqoop –options-file xxx 執行導入命令

錯誤寫法以下:

import

-D sqoop.hbase.add.row.key=true

--connect jdbc:mysql://192.168.1.9:3306/spider

--username root

--password root

--table TEST_GOODS

--columns ID,GOODS_NAME,GOODS_PRICE

--hbase-create-table

--hbase-table test_goods

--column-family cf

--hbase-row-key ID

--where "ID >= 5"

-m 1

 

錯誤緣由:參數的名稱和參數的值沒有進行回車換行

正確寫法:

import

-D

sqoop.hbase.add.row.key=true

--connect

jdbc:mysql://192.168.1.9:3306/spider

--username

root

--password

root

--table

TEST_GOODS

--columns

ID,GOODS_NAME,GOODS_PRICE

--hbase-create-table

--hbase-table

tt_goods

--column-family

cf

--hbase-row-key

ID

--where

ID>=5

-m

1

 

注:參數含義解釋

-D sqoop.hbase.add.row.key=true 是否將rowkey相關字段寫入列族中,默認爲false,默認狀況下你將在列族中看不到任何row key中的字段。注意,該參數必須放在import以後。

--connect 數據庫鏈接字符串

--username –password  mysql數據庫的用戶名密碼

--table Test_Goods表名,注意大寫

--hbase-create-table  若是hbase中該表不存在則建立

--hbase-table   對應的hbase表名

--hbase-row-key   hbase表中的rowkey,注意格式

--column-family   hbase表的列族

--where    導入是mysql表的where條件,寫法和sql中同樣

--split-by CREATE_TIME   默認狀況下sqoop使用4個併發執行任務,須要制訂split的列,若是不想使用併發,能夠用參數 --m 1

到此,bug解決完成!!!

 

3、知識拓展,定時增量導入

一、Sqoop增量導入

sqoop import -D sqoop.hbase.add.row.key=true --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key ID --incremental lastmodified --check-column U_DATE 
--last-value '2017-06-27' --split-by U_DATE

--incremental lastmodified 增量導入支持兩種模式 append 遞增的列;lastmodified時間戳。

--check-column 增量導入時參考的列

--last-value 最小值,這個例子中表示導入2017-06-27到今天的值

 

二、Sqoop job:

sqoop job --create testjob01 --import --connect 
jdbc:mysql://192.168.1.9:3306/spider --username root --password root 
--table TEST_GOODS --columns ID,GOODS_NAME,GOODS_PRICE 
--hbase-create-table --hbase-table t_goods --column-family cf 
--hbase-row-key ID -m 1

設置定時執行以上sqoop job

使用linux定時器:crontab -e

例如天天執行

0 0 * * * /opt/local/sqoop-1.4.6/bin/sqoop job ….

--exec testjob01

相關文章
相關標籤/搜索