oracle imp導入數據亂碼問題的解決

1、什麼是Oracle字符集web

       Oracle字符集是一個字節數據的解釋的符號集合,有大小之分,有相互的包容關係。ORACLE 支持國家語言的體系結構容許你使用本地化語言來存儲,處理,檢索數據。它使數據庫工具,錯誤消息,排序次序,日期,時間,貨幣,數字,和日曆自動適應本地化語言和平臺。sql

 

影響Oracle數據庫字符集最重要的參數是NLS_LANG參數。數據庫

它的格式以下: NLS_LANG = language_territory.charsetwindows

它有三個組成部分(語言、地域和字符集),每一個成分控制了NLS子集的特性。服務器

其中:session

Language 指定服務器消息的語言, 影響提示信息是中文仍是英文oracle

Territory 指定服務器的日期和數字格式,編輯器

Charset  指定字符集。函數

:AMERICAN _ AMERICA. ZHS16GBK工具

NLS_LANG的組成咱們能夠看出,真正影響數據庫字符集的實際上是第三部分

因此兩個數據庫之間的字符集只要第三部分同樣就能夠相互導入導出數據,前面影響的只是提示信息是中文仍是英文

 

二.字符集的相關知識:

2.1 字符集
    
實質就是按照必定的字符編碼方案,對一組特定的符號,分別賦予不一樣數值編碼的集合。Oracle數據庫最先支持的編碼方案是US7ASCII
    Oracle
的字符集命名遵循如下命名規則:
    <Language><bit size><encoding>
    
: <語言><比特位數><編碼
>
    
好比: ZHS16GBK表示採用GBK編碼格式、16位(兩個字節)簡體中文字符集
 
  
2.2 
字符編碼方案


2.2.1 
單字節編碼
    
1單字節7位字符集,能夠定義128個字符,最經常使用的字符集爲US7ASCII
    
2單字節8位字符集,能夠定義256個字符,適合於歐洲大部分國家

             
例如:WE8ISO8859P1(西歐、8位、ISO標準8859P1編碼)

 

2.2.2 多字節編碼
    
1)變長多字節編碼
    
某些字符用一個字節表示,其它字符用兩個或多個字符表示,變長多字節編碼經常使用於對亞洲語言的支持,   例如日語、漢語、印地語等
    
例如:AL32UTF8(其中AL表明ALL,指適用於全部語言)、zhs16cgb231280
    
2)定長多字節編碼

    
每個字符都使用固定長度字節的編碼方案,目前oracle惟一支持的定長多字節編碼是AF16UTF16,也是僅用於國家字符集

2.2.3 unicode編碼
    Unicode
是一個涵蓋了目前全世界使用的全部已知字符的單一編碼方案,也就是說Unicode爲每個字符提供惟一的編碼。UTF-16unicode16位編碼方式,是一種定長多字節編碼,用2個字節表示一個unicode字符,AF16UTF16UTF-16編碼字符集
    UTF-8
unicode8位編碼方式,是一種變長多字節編碼,這種編碼能夠用123個字節表示一個unicode字符,AL32UTF8UTF8UTFEUTF-8編碼字符集 
  
2.3 
字符集超級

    
當一種字符集(字符集A)的編碼數值包含全部另外一種字符集(字符集B)的編碼數值,而且兩種字符集相同編碼數值表明相同的字符時,則字符集A是字符集B的超級,或稱字符集B是字符集A的子集。
    Oracle8i
oracle9i官方文檔資料中備有子集-超級對照表(subset-superset pairs,例如:WE8ISO8859P1WE8MSWIN1252的子集。因爲US7ASCII是最先的Oracle數據庫編碼格式,所以有許多字符集是US7ASCII的超集,例如WE8ISO8859P1ZHS16CGB231280ZHS16GBK都是US7ASCII的超集。 
  
2.4 
數據庫字符集(oracle服務器端字符集)

    
數據庫字符集在建立數據庫時指定,在建立後一般不能更改。在建立數據庫時,能夠指定字符集(CHARACTER SET)和國家字符集(NATIONAL CHARACTER SET)

 

2.4.1字符集
    (1)
用來存儲CHAR, VARCHAR2, CLOB, LONG等類型數據
    (2)
用來標示諸如表名、列名以及PL/SQL變量等
    (3)
用來存儲SQLPL/SQL程序單元等

 

2.4.2國家字符集:
    (1)
用以存儲NCHAR, NVARCHAR2, NCLOB等類型數據
    (2)
國家字符集實質上是爲oracle選擇的附加字符集,主要做用是爲了加強oracle的字符處理能力,由於NCHAR數據類型能夠提供對亞洲使用定長多字節編碼的支持,而數據庫字符集則不能。國家字符集在oracle9i中進行了從新定義,只能在unicode編碼中的AF16UTF16UTF8中選擇,默認值是AF16UTF16

 

2.4.3查詢字符集參數
    
能夠查詢如下數據字典或視圖查看字符集設置狀況
    nls_database_parameters
props$v$nls_parameters
    
查詢結果中NLS_CHARACTERSET表示字符集NLS_NCHAR_CHARACTERSET表示國家字符集

 

2.4.4修改數據庫字符集
    
按照上文所說,數據庫字符集在建立後原則上不能更改。不過有2種方法可行。

 

1. 若是須要修改字符集,一般須要導出數據庫數據,重建數據庫,再導入數據庫數據的方式來轉換

2. 經過ALTER DATABASE CHARACTER SET語句修改字符集,但建立數據庫後修改字符集是有限制的,只有新的字符集是當前字符集的超集時才能修改數據庫字符集,例如UTF8US7ASCII的超集,修改數據庫字符集可以使用ALTER DATABASE CHARACTER SET UTF8 
  
2.5 
客戶端字符集(NLS_LANG參數)


2.5.1
客戶端字符集含義
    
客戶端字符集定義了客戶端字符數據的編碼方式,任何發自或發往客戶端的字符數據均使用客戶端定義的字符集編碼,客戶端能夠看做是能與數據庫直接鏈接的各類應用,例如sqlplus,exp/imp等。客戶端字符集是經過設置NLS_LANG參數來設定的。

 

2.5.2 NLS_LANG參數格式
    NLS_LANG=<language>_<territory>.<client character set> 
    Language: 
顯示oracle消息,校驗,日期命名
    Territory
指定默認日期、數字、貨幣等格式
    Client character set
指定客戶端將使用的字符集
    
例如:NLS_LANG=AMERICAN_AMERICA.US7ASCII 
    AMERICAN
是語言,AMERICA是地區,US7ASCII是客戶端字符集

 

2.5.3客戶端字符集設置方法
     1)UNIX
環境
         $NLS_LANG=「simplified chinese」_china.zhs16gbk
         $export NLS_LANG
         
編輯oracle用戶的profile文件
    2)Windows
環境
         
編輯註冊表
         Regedit.exe ---
 HKEY_LOCAL_MACHINE ---SOFTWARE --- ORACLE-HOME

 

2.5.4 NLS參數查詢
    Oracle
提供若干NLS參數定製數據庫和用戶機以適應本地格式,例若有NLS_LANGUAGE,NLS_DATE_FORMAT,NLS_CALENDER等,能夠經過查詢如下數據字典或v$視圖查看。
NLS_DATABASE_PARAMETERS:
顯示數據庫當前NLS參數取值,包括數據庫字符集取值
NLS_SESSION_PARAMETERS
  顯示由NLS_LANG 設置的參數,或通過alter session 改變後的參數值(不包括由NLS_LANG 設置的客戶端字符集)
NLS_INSTANCE_PARAMETE
 顯示由參數文件init<SID>.ora 定義的參數

V$NLS_PARAMETERS顯示數據庫當前NLS參數取值

 

2.5.5修改NLS參數
    
使用下列方法能夠修改NLS參數
    
1)修改實例啓動時使用的初始化參數文件
    
2)修改環境變量NLS_LANG
    
3)使用ALTER SESSION語句,在oracle會話中修改

    
4)使用某些SQL函數
    NLS
做用優先級別Sql function > alter session > 環境變量或註冊表 參數文件 數據庫默認參數

 

三.EXP/IMP  字符集

3.1 EXP/IMP
    Export 
 Import 是一對讀寫Oracle數據的工具。Export  Oracle 數據庫中的數據輸出到操做系統文件中, Import 把這些文件中的數據讀到Oracle 數據庫中,因爲使用exp/imp進行數據遷移時,數據從源數據庫到目標數據庫的過程當中有四個環節涉及到字符集,若是這四個環節的字符集不一致,將會發生字符集轉換。 
EXP
     ____________ _________________ _____________
     |imp
導入文件|<-|環境變量NLS_LANG|<-|數據庫字符集
|
      ------------   -----------------   -------------

IMP 
     ____________ _________________ _____________
     |imp
導入文件|->|環境變量NLS_LANG|->|數據庫字符集
|
      ------------   -----------------   -------------

 

 

四個字符集是
   
1)源數據庫字符集 
   
2Export過程當中用戶會話字符集(經過NLS_LANG設定)

   
3Import過程當中用戶會話字符集(經過NLS_LANG設定)
   
4)目標數據庫字符集 
  
3.2
導出的轉換過程

    
Export過程當中,若是源數據庫字符集與Export用戶會話字符集不一致,會發生字符集轉換,並在導出文件的頭部幾個字節中存儲Export用戶會話字符集的ID號。在這個轉換過程當中可能發生數據的丟失。


:若是源數據庫使用ZHS16GBK,而Export用戶會話字符集使用US7ASCII,因爲ZHS16GBK16位字符集,US7ASCII7位字符集,這個轉換過程當中,中文字符在US7ASCII中不可以找到對等的字符,因此全部中文字符都會丟失而變成「?? 」形式,這樣轉換後生成的Dmp文件已經發生了數據丟失。
所以若是想正確導出源數據庫數據,則Export過程當中用戶會話字符集應等於源數據庫字符集或是源數據庫字符集的超集 
  
3.3
導入的轉換過程

    
1)肯定導出數據庫字符集環境
             
經過讀取導出文件頭,能夠得到導出文件的字符集設置
    
2)肯定導入session的字符集,即導入Session使用的NLS_LANG環境變量
    
3IMP讀取導出文件
             
讀取導出文件字符集ID,和導入進程的NLS_LANG進行比較
    
4)若是導出文件字符集和導入Session字符集相同,那麼在這一步驟內就不須要轉換,             若是不一樣,就須要把數據轉換爲導入Session使用的字符集。能夠看出,導入數據到數據庫過程當中發生兩次字符集轉換


    
第一次:導入文件字符集與導入Session使用的字符集之間的轉換,若是這個轉換過程不能正確完成,Import向目標數據庫的導入過程也就不能完成。
    
第二次:導入Session字符集與數據庫字符集之間的轉換。

 

查看數據庫字符集

涉及三方面的字符集,

1. oracel server端的字符集;

2. oracle client端的字符集;

3. dmp文件的字符集。

 

在作數據導入的時候,須要這三個字符集都一致才能正確導入。

 

4.1 查詢oracle server端的字符集

有不少種方法能夠查出oracle server端的字符集,比較直觀的查詢方法是如下這種:

SQL> select userenv('language') from dual;

USERENV('LANGUAGE')

----------------------------------------------------

SIMPLIFIED CHINESE_CHINA.ZHS16GBK

 

SQL>select userenv(‘language’) from dual;

AMERICAN _ AMERICA. ZHS16GBK

 

4.2 如何查詢dmp文件的字符集

oracleexp工具導出的dmp文件也包含了字符集信息,dmp文件的第2和第3個字節記錄了dmp文件的字符集。若是dmp文件不大,好比只有幾M或幾十M,能夠用UltraEdit打開(16進制方式),看第23個字節的內容,如0354,而後用如下SQL查出它對應的字符集:

SQL> select nls_charset_name(to_number('0354','xxxx')) from dual;

ZHS16GBK

 

若是dmp文件很大,好比有2G以上(這也是最多見的狀況),用文本編輯器打開很慢或者徹底打不開,能夠用如下命令(unix主機上):

cat exp.dmp |od -x|head -1|awk '{print $2 $3}'|cut -c 3-6

而後用上述SQL也能夠獲得它對應的字符集。

 

4.3 查詢oracle client端的字符集

windows平臺下,就是註冊表裏面相應OracleHomeNLS_LANG。還能夠在dos窗口裏面本身設置,

好比: set nls_lang=AMERICAN_AMERICA.ZHS16GBK

這樣就隻影響這個窗口裏面的環境變量。

 

unix平臺下,就是環境變量NLS_LANG

$echo $NLS_LANG

AMERICAN_AMERICA.ZHS16GBK

 

若是檢查的結果發現server端與client端字符集不一致,請統一修改成同server端相同的字符集。

 

補充:

(1).數據庫服務器字符集

select * from nls_database_parameters

來源於props$,是表示數據庫的字符集。

 

(2).客戶端字符集環境

select * from nls_instance_parameters

其來源於v$parameter,表示客戶端的字符集的設置,多是參數文件,環境變量或者是註冊表

 

(3).會話字符集環境

select * from nls_session_parameters

來源於v$nls_parameters,表示會話本身的設置,多是會話的環境變量或者是alter session完成,若是會話沒有特殊的設置,將與nls_instance_parameters一致。

 

(4).客戶端的字符集要求與服務器一致,才能正確顯示數據庫的非Ascii字符

若是多個設置存在的時候,NLS做用優先級別Sql function > alter session > 環境變量或註冊表 參數文件 數據庫默認參數

 

字符集要求一致,可是語言設置卻能夠不一樣,語言設置建議用英文。如字符集是zhs16gbk,則nls_lang能夠是American_America.zhs16gbk

 

 

五. 修改oracle的字符集

按照上文所說,數據庫字符集在建立後原則上不能更改。所以,在設計和安裝之初考慮使用哪種字符集十分重要。對數據庫server而言,錯誤的修改字符集將會致使不少不可測的後果,可能會嚴重影響數據庫的正常運行,因此在修改以前必定要確認兩種字符集是否存在子集和超集的關係。通常來講,除非萬不得已,咱們不建議修改oracle數據庫server端的字符集。特別說明,咱們最經常使用的兩種字符集ZHS16GBKZHS16CGB231280之間不存在子集和超集關係,所以理論上講這兩種字符集之間的相互轉換不受支持。

 

不過修改字符集有2種方法可行。

1. 一般須要導出數據庫數據,重建數據庫,再導入數據庫數據的方式來轉換

2. 經過ALTER DATABASE CHARACTER SET語句修改字符集,但建立數據庫後修改字符集是有限制的,只有新的字符集是當前字符集的超集時才能修改數據庫字符集,例如UTF8US7ASCII的超集,修改數據庫字符集可以使用ALTER DATABASE CHARACTER SET UTF8 
 

 

5.1 修改server端字符集(不建議使用)


 登錄用dba

[oracle@rehl3 oracle]$ sqlplus /nolog 
SQL> conn /as sysdba ;


1.       關閉數據庫

SQL>SHUTDOWN IMMEDIATE



啓動數據庫到mount狀態下 
SQL> STARTUP MOUNT;


SQL> ALTER SESSION SET SQL_TRACE=TRUE; 
Session altered.

SQL> ALTER SYSTEM ENABLE RESTRICTED SESSION; 
System altered.

SQL> ALTER SYSTEM SET JOB_QUEUE_PROCESSES=0; 
System altered.

SQL> ALTER SYSTEM SET AQ_TM_PROCESSES=0; 
System altered. 

啓動數據庫 
SQL> Alter database open; 

設置字符集 
SQL> ALTER DATABASE CHARACTER SET ZHS16GBK; 
 
跳過字符集檢查

ALTER DATABASE character set INTERNAL_USE ZHS16GBK 


SQL>ALTER DATABASE national CHARACTER SET ZHS16GBK;


SQL>ALTER DATABASE NATIONAL CHARACTER SET INTERNAL_USE UTF8;

關閉數據庫 
SQL> Shutdown immediate; 

重啓 
SQL> startup;


 

5.2 修改dmp文件字符集

上文說過,dmp文件的第23字節記錄了字符集信息,所以直接修改dmp文件的第23字節的內容就能夠oracle的檢查。這樣作理論上也僅是從子集到超集能夠修改,但不少狀況下在沒有子集和超集關係的狀況下也能夠修改,咱們經常使用的一些字符集,如US7ASCIIWE8ISO8859P1ZHS16CGB231280ZHS16GBK基本均可以改。由於改的只是dmp文件,因此影響不大。

 

具體的修改方法比較多,最簡單的就是直接用UltraEdit修改dmp文件的第2和第3個字節。

好比想將dmp文件的字符集改成ZHS16GBK,能夠用如下SQL查出該種字符集對應的16進制代碼:

SQL> select to_char(nls_charset_id('ZHS16GBK'), 'xxxx') from dual;

0354

而後將dmp文件的23字節修改成0354便可。

若是dmp文件很大,用ue沒法打開,就須要用程序的方法了。

 

5.3客戶端字符集設置方法
     1)UNIX
環境
         $NLS_LANG=「simplified chinese」_china.zhs16gbk
         $export NLS_LANG
         
編輯oracle用戶的profile文件
    2)Windows
環境
         
編輯註冊表
         Regedit.exe ---
 HKEY_LOCAL_MACHINE ---SOFTWARE --- ORACLE-HOME

  或者在窗口設置:

set nls_lang=AMERICAN_AMERICA.ZHS16GBK

相關文章
相關標籤/搜索