Sqoop問題之數據超長

Sqoop問題之數據超長

問題描述

今天使用Sqoop將數據從HDFS導出到MySQL的時候,報出了以下錯誤:java

2018-08-22 14:49:36,857 INFO [IPC Server handler 1 on 35135] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Progress of TaskAttempt attempt_1528444677205_3829_m_000000_0 is : 0.0
2018-08-22 14:49:36,866 FATAL [IPC Server handler 2 on 35135] org.apache.hadoop.mapred.TaskAttemptListenerImpl: Task: attempt_1528444677205_3829_m_000000_0 - exited : java.io.IOException: Can't export data, please check failed map task logs
	at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:122)
	at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:39)
	at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
	at org.apache.sqoop.mapreduce.AutoProgressMapper.run(AutoProgressMapper.java:64)
	at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:787)
	at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
	at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
	at java.security.AccessController.doPrivileged(Native Method)
	at javax.security.auth.Subject.doAs(Subject.java:422)
	at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1693)
	at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
Caused by: java.io.IOException: java.sql.BatchUpdateException: Data truncation: Data too long for column 'on_off_time' at row 4 #問題提示關鍵點
	at org.apache.sqoop.mapreduce.AsyncSqlRecordWriter.write(AsyncSqlRecordWriter.java:233)
	at org.apache.sqoop.mapreduce.AsyncSqlRecordWriter.write(AsyncSqlRecordWriter.java:46)
	at org.apache.hadoop.mapred.MapTask$NewDirectOutputCollector.write(MapTask.java:658)
	at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)
	at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)
	at org.apache.sqoop.mapreduce.TextExportMapper.map(TextExportMapper.java:90)
	... 10 more

字段說明:on_off_time字段在Hive中的字段類型爲String,在MySQL中的設置是varchar(50)。由於這個字段比較特殊,須要存儲多個時間點,因此可能存儲的數據會很大。sql

解析

由上面的字段說明,很容易就找出了問題的所在,那就是問題字段超過了MySQL的數據類型可以存儲的大小,這就須要MySQL中可以盛放的下這個數據的數據類型才能存儲。apache

解決方法

對於數據自己,確定是無能爲力了,這是本人清理好的數據,沒有辦法再進行精簡,因此解決問題的點就在MySQL中了。bash

首先,我嘗試了varchar的最大值,仍舊是報錯。app

那麼最終只有更換MySQL的數據類型了,將本來的vachar類型更改成text類型。oop

問題獲得解決。測試

總結

這裏可能會有人問,爲何不直接更改數據類型,而是還要測試一下varchar的最大值,固然是爲了更合理的利用資源了,若是varchar可以盛放的下,就不會更改這個數據類型。另外text類型的查詢速度是有目共睹的,因此在不是必須的狀況下,本人是不想使用text類型。spa

相關文章
相關標籤/搜索