字符集問題（Linux、oracle、終端等，導入導出數據）

時間 2019-11-08

標籤字符集問題 linux oracle 終端導入導出數據欄目 Linux 简体版

原文原文鏈接

locale的設定及其LANG、LC_ALL、LANGUAGE環境變量的區別

（轉自：http://hi.baidu.com/edeed/item/c23752f36abdd916ce9f3289） html

例如zh_CN.GB23十二、zh_CN.GB18030或者zh_CN.UTF-8。不少人都不明白這些古里古怪的表達方式。這個外星表達式規定了什麼東西呢？這個問題稍後詳述，如今只須要知道，這是locale的表達方式就能夠了。

locale這個單詞中文翻譯成地區或者地域，其實這個單詞包含的意義要寬泛不少。Locale是根據計算機用戶所使用的語言，所在國家或者地區，以及當地的文化傳統所定義的一個軟件運行時的語言環境。

[oracle@game ~]$ locale
LANG=en_US.UTF-8
LC_CTYPE="en_US.UTF-8"
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=en_US.UTF-8
[oracle@game ~]$

locale把按照所涉及到的文化傳統的各個方面分紅12個大類，這12個大類分別是：

一、語言符號及其分類(LC_CTYPE)
二、數字(LC_NUMERIC)
三、比較和排序習慣(LC_COLLATE)
四、時間顯示格式(LC_TIME)
五、貨幣單位(LC_MONETARY)
六、信息主要是提示信息,錯誤信息,狀態信息,標題,標籤,按鈕和菜單等(LC_MESSAGES)
七、姓名書寫方式(LC_NAME)
八、地址書寫方式(LC_ADDRESS)
九、電話號碼書寫方式(LC_TELEPHONE)
十、度量衡表達方式 (LC_MEASUREMENT)
十一、默認紙張尺寸大小(LC_PAPER)
十二、對locale自身包含信息的概述(LC_IDENTIFICATION)。

因此說，locale就是某一個地域內的人們的語言習慣和文化傳統和生活習慣。一個地區的locale就是根據這幾大類的習慣定義的，這些locale定義文件放在/usr/share/i18n/locales目錄下面，例如en_US, zh_CN and de_DE@euro都是locale的定義文件，這些文件都是用文本格式書寫的，你能夠用寫字板打開，看看裏邊的內容，固然出了有限的註釋之外，大部分東西可能你都看不懂，由於是用的Unicode的字符索引方式。

[oracle@game ~]$ cd /usr/share/i18n/locales
[oracle@game locales]$ ls
aa_DJ        ar_YE       el_GR       es_ES       fr_CH           iso14651_t1 ne_NP       so_ET                  translit_hangul
aa_ER        az_AZ       el_GR@euro es_ES@euro fr_FR           it_CH        nl_BE       so_KE                  translit_narrow
aa_ER@saaho be_BY       en_AU       es_GT       fr_FR@euro      it_IT        nl_BE@euro so_SO                  translit_neutral
aa_ET        bg_BG       en_BW       es_HN       fr_LU           it_IT@euro   nl_NL       sq_AL                  translit_small
af_ZA        bn_BD       en_CA       es_MX       fr_LU@euro      iw_IL        nl_NL@euro sr_CS                  translit_wide
am_ET        bn_IN       en_DK       es_NI       ga_IE           ja_JP        nn_NO       st_ZA                  tr_TR
an_ES        br_FR       en_GB       es_PA       ga_IE@euro      ka_GE        no_NO       sv_FI                  tt_RU
ar_AE        br_FR@euro en_HK       es_PE       gd_GB           kk_KZ        oc_FR       sv_FI@euro             uk_UA
ar_BH        bs_BA       en_IE       es_PR       gez_ER          kl_GL        om_ET       sv_SE                  ur_PK
ar_DZ        byn_ER      en_IE@euro es_PY       gez_ER@abegede kn_IN        om_KE       ta_IN                  uz_UZ
ar_EG        ca_ES       en_IN       es_SV       gez_ET          ko_KR        pa_IN       te_IN                  uz_UZ@cyrillic
ar_IN        ca_ES@euro en_NZ       es_US       gez_ET@abegede kw_GB        pl_PL       tg_TJ                  vi_VN
ar_IQ        cs_CZ       en_PH       es_UY       gl_ES           lg_UG        POSIX       th_TH                  wa_BE
ar_JO        cy_GB       en_SG       es_VE       gl_ES@euro      lo_LA        pt_BR       ti_ER                  wa_BE@euro
ar_KW        da_DK       en_US       et_EE       gu_IN           lt_LT        pt_PT       ti_ET                  wal_ET
ar_LB        de_AT       en_ZA       eu_ES       gv_GB           lv_LV        pt_PT@euro tig_ER                 xh_ZA
ar_LY        de_AT@euro en_ZW       eu_ES@euro he_IL           mi_NZ        ro_RO       tl_PH                  yi_US
ar_MA        de_BE       es_AR       fa_IR       hi_IN           mk_MK        ru_RU       translit_circle        zh_CN
ar_OM        de_BE@euro es_BO       fi_FI       hr_HR           ml_IN        ru_UA       translit_cjk_compat    zh_HK
ar_QA        de_CH       es_CL       fi_FI@euro hu_HU           mn_MN        se_NO       translit_cjk_variants zh_SG
ar_SA        de_DE       es_CO       fo_FO       hy_AM           mr_IN        sid_ET      translit_combining     zh_TW
ar_SD        de_DE@euro es_CR       fr_BE       i18n            ms_MY        sk_SK       translit_compat        zu_ZA
ar_SY        de_LU       es_DO       fr_BE@euro id_ID           mt_MT        sl_SI       translit_font
ar_TN        de_LU@euro es_EC       fr_CA       is_IS           nb_NO        so_DJ       translit_fraction
[oracle@game locales]$

對於de_DE@euro的一點說明，@後邊是修正項，也就是說你能夠看到兩個德國的locale：/usr/share/i18n/locales/de_DE@euro和/usr/share/i18n/locales/de_DE。打開這兩個locale定義，你就會知道它們的差異在於de_DE@euro使用的是歐洲的排序、比較和縮進習慣，而de_DE用的是德國的標準習慣。

上面咱們說到了zh_CN.GB18030的前半部分，後半部分是什麼呢？大部分Linux用戶都知道是系統採用的字符集。

zh_CN.GB2312究竟是在說什麼？ Locale是軟件在運行時的語言環境, 它包括語言(Language), 地域 (Territory) 和字符集(Codeset)。一個locale的書寫格式爲: 語言[_地域[.字符集]]。因此說呢，locale老是和必定的字符集相聯繫的。下面舉幾個例子：

一、我說中文，身處中華人民共和國，使用國標2312字符集來表達字符。zh_CN.GB2312＝中文_中華人民共和國＋國標2312字符集。

二、我說中文，身處中華人民共和國，使用國標18030字符集來表達字符。zh_CN.GB18030＝中文_中華人民共和國＋國標18030字符集。

三、我說中文，身處中華人民共和國臺灣省，使用國標Big5字符集來表達字符。zh_TW.BIG5=中文_臺灣.大五碼字符集

四、我說英文，身處大不列顛，使用ISO-8859-1字符集來表達字符。 en_GB.ISO-8859-1=英文_大不列顛.ISO-8859-1字符集

五、我說德語，身處德國，使用UTF-8字符集，習慣了歐洲風格。-8字符集@按照歐洲習慣加以修正，注意不是-8，因此徹底的locale表達方式是 [語言[_地域][.字符集] [@修正值]。

其中，與中文輸入關係最密切的就是LC_CTYPE，LC_CTYPE規定了系統內有效的字符以及這些字符的分類，諸如什麼是大寫字母，小寫字母，大小寫轉換，標點符號、可打印字符和其餘的字符屬性等方面。而locale定義zh_CN中最最重要的一項就是定義了漢字(Class「hanzi」)這一個大類，固然也是用Unicode描述的，這就讓中文字符在Linux系統中成爲合法的有效字符，並且不論它們是用什麼字符集編碼的。

怎樣設定locale呢？

設定locale就是設定12大類的locale分類屬性，即12個LC_*。除了這12個變量能夠設定之外，爲了簡便起見，還有兩個變量：LC_ALL和LANG。它們之間有一個優先級的關係：LC_ALL > LC_* >LANG。能夠這麼說，LC_ALL是最上級設定或者強制設定，而LANG是默認設定值。

一、若是你設定了LC_ALL＝zh_CN.UTF-8，那麼無論LC_*和LANG設定成什麼值，它們都會被強制服從LC_ALL的設定，成爲 zh_CN.UTF-8。

二、假如你設定了LANG＝zh_CN.UTF-8，而其餘的LC_*=en_US.UTF-8，而且沒有設定LC_ALL的話，那麼系統的locale設定以LC_*=en_US.UTF-8。

三、假如你設定了LANG＝zh_CN.UTF-8，而其餘的LC_*，和LC_ALL均未設定的話，系統會將LC_*設定成默認值，也就是LANG的值zh_CN.UTF-8。

四、假如你設定了LANG＝zh_CN.UTF-8，而其餘的LC_CTYPE=en_US.UTF-8，其餘的LC_*，和LC_ALL均未設定的話，那麼系統的locale設定將是：LC_CTYPE=en_US.UTF-8，其他的 LC_COLLATE，LC_MESSAGES等等均會採用默認值，也就是 LANG的值，也就是LC_COLLATE＝LC_MESSAGES＝……＝ LC_PAPER＝LANG＝zh_CN.UTF-8。

因此，locale是這樣設定的：

一、若是你須要一個純中文的系統的話，設定LC_ALL= zh_CN.XXXX，或者LANG=zh_CN.XXXX均可以，固然你能夠兩個都設定，但正如上面所講，LC_ALL的值將覆蓋全部其餘的locale設定，不要做無用功。

二、若是你只想要一個能夠輸入中文的環境，而保持菜單、標題，系統信息等等爲英文界面，那麼只須要設定 LC_CTYPE＝zh_CN.XXXX，LANG=en_US.XXXX就能夠了。這樣LC_CTYPE＝zh_CN.XXXX，而LC_COLLATE＝LC_MESSAGES＝……＝ LC_PAPER＝LANG＝en_US.XXXX。

三、假如你高興的話，能夠把12個LC_*一一設定成你須要的值，打造一個古靈精怪的系統： LC_CTYPE＝zh_CN.GBK/GBK(使用中文編碼內碼GBK字符集)； LC_NUMERIC=en_GB.ISO-8859-1(使用大不列顛的數字系統) LC_MEASUREMEN=de_DE@euro.ISO-8859-15(德國的度量衡使用ISO-8859-15字符集) 羅馬的地址書寫方式，美國的紙張設定……。估計沒人這麼幹吧。

四、假如你什麼也不作的話，也就是LC_ALL，LANG和LC_*均不指定特定值的話，系統將採用POSIX做爲lcoale，也就是C locale。

另外LANG和LANGUAGE有什麼區別呢？

LANG - Specifies the default locale for all unset locale variables
LANGUAGE - Most programs use this for the language of its interface
LANGUAGE是設置應用程序的界面語言。而LANG是優先級很低的一個變量，它指定全部與locale有關的變量的默認值， linux

sqlldr 導入亂碼，Oracle客戶端字符集問題 sql

轉自：http://hi.baidu.com/danghj/blog/item/36a85f10b8dcbdf1c3ce799a.html 數據庫

1，查Oracle數據庫建立時候的字符集：
Oracle服務器端執行

SQL> select name, value$ from sys.props$ where name like 'NLS%';

NAME                           VALUE$
------------------------------ ----------------------------------------
NLS_LANGUAGE                   AMERICAN
NLS_TERRITORY                  AMERICA
NLS_CURRENCY                   $
NLS_ISO_CURRENCY               AMERICA
NLS_NUMERIC_CHARACTERS         .,
NLS_CHARACTERSET               UTF8
NLS_CALENDAR                   GREGORIAN
NLS_DATE_FORMAT                DD-MON-RR
NLS_DATE_LANGUAGE              AMERICAN
NLS_SORT                       BINARY
NLS_TIME_FORMAT                HH.MI.SSXFF AM

NAME                           VALUE$
------------------------------ ----------------------------------------
NLS_TIMESTAMP_FORMAT           DD-MON-RR HH.MI.SSXFF AM
NLS_TIME_TZ_FORMAT             HH.MI.SSXFF AM TZR
NLS_TIMESTAMP_TZ_FORMAT        DD-MON-RR HH.MI.SSXFF AM TZR
NLS_DUAL_CURRENCY              $
NLS_COMP                       BINARY
NLS_LENGTH_SEMANTICS           BYTE
NLS_NCHAR_CONV_EXCP            FALSE
NLS_NCHAR_CHARACTERSET         AL16UTF16
NLS_RDBMS_VERSION              10.2.0.4.0

20 rows selected.

確認數據庫建立的時候選擇的字符集是 UTF-8
.執行sql ：select userenv('language') from dual; 獲取oracle服務端字符集X

SQL> select userenv('language') from dual;

USERENV('LANGUAGE')
----------------------------------------------------
SIMPLIFIED CHINESE_CHINA.UTF8

2. 檢查執行 sqlldr 的客戶端的 NLS_LANG 的設置
Oracle 客戶端執行

[oracle@localhost hx]$ echo $NLS_LANG
AMERICAN_AMERICA.UTF8

3. 儘可能讓以上3個步驟檢查出的字符集設置都一致，開始經過 sqlldr 導入文本，並檢查結果。

一般出現問題的緣由，可分爲三種：

1. 服務器指定字符集與客戶字符集不一樣，而與加載數據字符集一致。

解決方法：對於這種狀況，只須要設置客戶端字符集與服務器端字符集一致就能夠了

oracle10g UTF8編碼：AMERICAN_AMERICA.AL32UTF8 bash

GBK編碼：SIMPLIFIED CHINESE_CHINA.ZHS16GBK 服務器

客戶端修改成中文是：在linux的終端上設置環境變量
1.LANG=zh_CN
2.NLS_LANG=zhs16gbk

2. 服務器指定字符集與客戶字符集相同,與加載數據字符集不一致。

解決方法：強制加載數據字符集與服務器端字符集一致。

3. 服務器指定字符集與客戶字符集不一樣,與輸入數據字符集不一致。

對於這種狀況，目前爲止都尚未太好的解決方法。

其中有的時候能夠嘗試經過 iconv -f utf-8 -t gbk filename
從原字符集 utf-8 轉換成 gbk

修改數據庫端字符集的方法：
　　1.服務器端字符集的設置和修改:
1.1 建立數據庫的時候直接選擇正確的字符集(顯示漢字的字符集主要有ZHS16CGB231280，US7ASCII，WE8ISO8859P1,ZHS16GBK等)
1.2若是建立的時候沒有選擇字符集,那麼字符集將使用默認的字符集.可使用以下命令查看數據庫的字符集.用oracle的合法用戶登陸.select * from V$NLS_PARAMETERS.
SQL > select * from V$NLS_PARAMETERS
parameter value
NLS_LANGUAGE AMERICAN
NLS_TERRITORY AMERICA
…. ….
NLS_CHARACTERSET WE8ISO8859P1
NLS_SORT BINARY
NLS_NCHAR_CHARACTERSET WE8ISO8859P1
---- 從上述信息看出ORACLE 數據庫的字符集爲' WE8ISO8859P1'。
能夠用update 命令修改數據庫的字符集,可是注意:修改字符集可能會對原有數據形成破壞,修改以前必定要先備份數據庫.命令以下:
用戶sys 以sysdba的身份登陸oracle. 字串9
SQL>update props$ set value$=’ZHS16GBK’ where name=’NLS_CHARACTERSET’
若是客戶端的字符集和服務器端不相同,就必須修改字符集.不然不能正確的顯示漢字.通常建議修改客戶端的字符集.
1.3不一樣字符集數據庫之間的數據導入
a）從新安裝數據庫或者是用update命令修改字符集。
b）強行修改oracle數據庫當前字符集。以sysdba的身份登陸oracle
SQL > create database character set ZHS16GBK （注：這裏的字符集爲導出數據的字符集）
* create database character set ZHS16GBK
ERROR at line 1:
ORA-01031: insufficient privileges
不用理會這個錯誤，用imp 裝入數據。數據裝完後，重啓動oracle 數據，select * from V$NLS_PARAMETERS 此時，你會發現，數據庫字符集又回到原來的字符集。
c）用第三方工具繞開字符集。如powerbuild的pipeline，delphi的datadump，MS access的數據導入導出工具。

客戶端字符集

一、客戶端字符集含義
客戶端字符集定義了客戶端字符數據的編碼方式，任何發自或發往客戶端的字符數據均使用客戶端定義的字符集編碼,客戶端能夠看做是能與數據庫直接鏈接的各類應用，例如sqlplus,exp/imp等。客戶端字符集是經過設置NLS_LANG參數來設定的。

二、NLS_LANG 參數格式
NLS_LANG= Language_ Territory. Client character se
Language: 顯示oracle消息、校驗、日期命名
Territory ：指定默認日期、數字、貨幣等格式
Client character set ：指定客戶端將使用的字符集
例如： NLS_LANG=AMERICAN_AMERICA.US7ASCII
AMERICAN是語言，AMERICA是地區，US7ASCII是客戶端字符集
三、客戶端字符集設置方法
1)UNIX 環境
$NLS_LANG=「simplified chinese」_china.zhs16gbk
$export NLS_LANG
編輯oracle用戶的.profile文件(或.bash_profile linux)
$ export NLS_LANG="SIMPLIFIED CHINESE"_CHINA.UTF8
2)Windows 環境
編輯註冊表
Regedit.exe HKEY_LOCAL_MACHINE---SOFTWARE---ORACLE—HOME0

在DOS名下執行：

Set NLS_LANG=「simplified chinese」_china.zhs16gbk
四、 NLS 參數查詢
Oracle 提供若干NLS參數定製數據庫和用戶機以適應本地格式，例若有NLS_LANGUAGE,NLS_DATE_FORMAT,NLS_CALENDER等，能夠經過查詢如下數據字典或v$視圖查看。
NLS_DATABASE_PARAMETERS-- 顯示數據庫當前NLS參數取值，包括數據庫字符集取值
NLS_SESSION_PARAMETERS-- 顯示由NLS_LANG 設置的參數，或通過alter session 改變後的參數值（不包括由NLS_LANG 設置的客戶端字符集）
NLS_INSTANCE_PARAMETE-- 顯示由參數文件init.ora 定義的參數V$NLS_PARAMETERS--顯示數據庫當前NLS參數取值

圖1-3 查詢NLS參數值 session

五、修改NLS參數
使用下列方法能夠修改NLS參數
（1）修改實例啓動時使用的初始化參數文件
（2）修改環境變量 NLS_LANG
（3）使用ALTER SESSION語句，在oracle會話中修改
（4）使用某些SQL函數
NLS 做用優先級別：Sql function>alter session>環境變量或註冊表>參數文件>數據庫默認 SQL*Loader的字符集轉換

使用SQL*Loader向數據庫裝載數據，有兩種轉換字符集的模式

常規路徑：數據被轉換爲 NLS_LANG 指定的會話字符集或者控制文件指定的字符集。

控制文件能夠指定字符集

SQL*Loader control file:

LOAD DATA

CHARACTERSET UTF16

INFILE ulcase11.dat

REPLACE …

若是數據文件的字符集與NLS_LANG環境變量的字符集不一致，SQL*Loader以NLS_LANG指定的字符集編碼存入數據庫。

直接路徑：數據使用客戶端指示被轉換.

這樣要求數據庫的字符集是數據文件字符集的超級，不然有可能出現亂碼。

亂碼問題及解決辦法

要在客戶端正確顯示ORACLE數據庫中的漢字信息，首先必須使客戶端的字符集與服務器端的字符集一致；其次是加載到ORACLE數據庫的數據字符集必須與服務器字符集一致。據此，漢字顯示亂碼的問題大體能夠分爲如下幾種狀況：
一、客戶端字符集與服務器端字符集不一樣，服務器端字符集與加載數據字符集一致。

如：

以system用戶登陸，建立表，插入數據。

這種狀況是最多見的，只要把客戶端的字符集設置正確便可。具體解決方案：
第一步：查詢V$NLS_DATABASE_PARAMETERS獲得服務端的字符集：
SQL>SELECT * FROM V$NLS_DATABASE_PARAMETERS WHERE PARAMETER=’ NLS_CHARACTERSET;
PARAMETER VALUE
-----------------------------------------------------
NLS_CHARACTERSET ZHS16GBK

第二步：根據服務端的字符集設定客戶端的字符集，設定方法參見客戶端的字符集的設定方式。以LINUX系統爲例，可在當前用戶的.bash_profile文件中增長以下兩行：
NLS_LANG=SIMPLIFIED Chinese_CHINA.ZHS16GBK
export NLS_LANG
二、客戶端字符集與服務器端字符集相同，服務器端字符集與加載數據字符集不一致。這種狀況通常發生在ORACLE版本升級或從新安裝數據庫時選擇了與原來數據庫不一樣的字符集，而恢復加載的備份數據還是按原字符集卸出的場合。另外一種狀況是加載從其它使用不一樣字符集的ORACLE數據庫卸出的數據。在這兩種狀況中，無論客戶端字符集與服務器端字符集是否一致都沒法正確顯示漢字。如：

具體解決方案：
方案一：按服務端字符集的修改方法修改服務端字符集與加載數據字符集一致，而後導入數據。
方案二：利用數據格式轉儲，避開字符集帶來的問題。即先將加載數據倒入到與其字符集一致的數據庫中，而後再將數據要麼按文本格式導出（數據量較小的狀況下），要麼經過第三方工具（如POWER BUILDER，ACCESS，FOXPRO等）倒出數據，最後將倒出的數據導入到目標數據庫中。
三、客戶端字符集與服務器端字符集不一樣，服務端字符集與輸入數據字符集不一樣。這種狀況是在客戶端字符集與服務器端字符集不一致時，從客戶端輸入了漢字信息。輸入的這些信息即使是把客戶端字符集更改正確，也沒法顯示漢字。

如： oracle