MYSQL 字符集問題【轉】

MySQL的字符集支持(Character Set Support)有兩個方面:
       1:字符集(Character set)mysql

       2:排序方式(Collation)sql


對於字符集的支持細化到四個層次:
       1:服務器(server):數據庫

       2:數據庫(database)瀏覽器

       3:數據表(table)服務器

       4:鏈接(connection)網站


MySQL默認字符集
       MySQL對於字符集的指定能夠細化到一個數據庫,一張表,一列,應該用什麼字符集。可是,傳統的程序在建立數據庫和數據表時並無使用那麼複雜的配置,它們用的是默認的配置。那麼,默認的配置從何而來呢?     編碼

     (1)編譯MySQL 時,指定了一個默認的字符集,這個字符集是 latin1;
     (2)安裝MySQL 時,能夠在配置文件 (my.ini) 中指定一個默認的的字符集,若是沒指定,這個值繼承自編譯時指定的;
     (3)啓動mysqld 時,能夠在命令行參數中指定一個默認的的字符集,若是沒指定,這個值繼承自配置文件中的配置,此時 character_set_server 被設定爲這個默認的字符集;
     (4)當建立一個新的數據庫時,除非明確指定,這個數據庫的字符集被缺省設定爲character_set_server;
     (5)當選定了一個數據庫時,character_set_database 被設定爲這個數據庫默認的字符集;
     (6)在這個數據庫裏建立一張表時,表默認的字符集被設定爲 character_set_database,也就是這個數據庫默認的字符集;
     (7)當在表內設置一欄時,除非明確指定,不然此欄缺省的字符集就是表默認的字符集;spa


     簡單的總結一下,若是什麼地方都不修改,那麼全部的數據庫的全部表的全部欄位的都用latin1 存儲,不過咱們若是安裝 MySQL,通常都會選擇多語言支持,也就是說,安裝程序會自動在配置文件中把default_character_set 設置爲 UTF-8,這保證了缺省狀況下,全部的數據庫的全部表的全部欄位的都用 UTF-8 存儲。插件


查看默認字符集命令行

     默認狀況下,mysql的字符集是latin1(ISO_8859_1。
     一般,查看系統的字符集和排序方式的設定能夠經過下面的兩條命令:
     mysql> SHOW VARIABLES LIKE 'character%';
+--------------------------+---------------------------------+
| Variable_name                | Value                                     |
+--------------------------+---------------------------------+
| character_set_client        | latin1                                     |
| character_set_connection | latin1                                     |
| character_set_database    | latin1                                     |
| character_set_filesystem   | binary                                     |
| character_set_results        | latin1                                     |
| character_set_server         | latin1                                     |
| character_set_system        | utf8                                       |
| character_sets_dir             | D:"mysql-5.0.37"share"charsets" |
+--------------------------+---------------------------------+
mysql> SHOW VARIABLES LIKE 'collation_%';
+----------------------+-----------------+
| Variable_name         | Value            |
+----------------------+-----------------+
| collation_connection | utf8_general_ci |
| collation_database    | utf8_general_ci |
| collation_server      | utf8_general_ci |
+----------------------+-----------------+


修改默認字符集
    (1) 最簡單的修改方法,就是修改mysql的my.ini文件中的字符集鍵值,
    如 default-character-set = utf8
       character_set_server = utf8
    修改完後,重啓mysql的服務,service mysql restart
    使用 mysql> SHOW VARIABLES LIKE 'character%';查看,發現數據庫編碼均已改爲utf8
+--------------------------+---------------------------------+
| Variable_name             | Value                            |
+--------------------------+---------------------------------+
| character_set_client      | utf8                             |
| character_set_connection | utf8                             |
| character_set_database    | utf8                             |
| character_set_filesystem | binary                           |
| character_set_results     | utf8                             |
| character_set_server      | utf8                             |
| character_set_system      | utf8                             |
| character_sets_dir        | D:"mysql-5.0.37"share"charsets" |
+--------------------------+---------------------------------+
    (2) 使用mysql的命令
    mysql> SET character_set_client = utf8 ;

    (3)修改數據庫的字符集
    mysql>use mydb
    mysql>alter database mydb character set utf-8;

    (4)建立數據庫指定數據庫的字符集
    mysql>create database mydb character set utf-8;
    (5)經過配置文件修改:
   修改/var/lib/mysql/mydb/db.opt
   default-character-set=latin1
   default-collation=latin1_swedish_ci
   爲
   default-character-set=utf8
   default-collation=utf8_general_ci
   重起MySQL:


MySQL中涉及的幾個字符集

    1>character-set-server/default-character-set:服務器字符集,默認狀況下所採用的。
    2>character-set-database:數據庫字符集。
    3>character-set-table:數據庫表字符集。
    優先級依次增長。因此通常狀況下只須要設置character-set-server,而在建立數據庫和表時不特別指定字符集,這樣統一採用character-set-server字符集。
    4>character-set-client:客戶端的字符集。客戶端默認字符集。當客戶端向服務器發送請求時,請求以該字符集進行編碼。
    5>character-set-results:結果字符集。服務器向客戶端返回結果或者信息時,結果以該字符集進行編碼。
    在客戶端,若是沒有定義character-set-results,則採用character-set-client字符集做爲默認的字符集。因此只須要設置character-set-client字符集。

    要處理中文,則能夠將character-set-server和character-set-client均設置爲GB2312,若是要同時處理多國語言,則設置爲UTF8。


關於MySQL的中文問題

    解決亂碼的方法是,在執行SQL語句以前,將MySQL如下三個系統參數設置爲與服務器字符集character-set-server相同的字符集。
    character_set_client:客戶端的字符集。
    character_set_results:結果字符集。
    character_set_connection:鏈接字符集。
    設置這三個系統參數經過向MySQL發送語句:set names gb2312


關於GBK、GB23十二、UTF8
    UTF-8:Unicode Transformation Format-8bit,容許含BOM,但一般不含BOM。是用以解決國際上字符的一種多字節編碼,它對英文使用8位(即一個字節),中文使用24位(三個字節)來編碼。UTF-8包含全世界全部國家須要用到的字符,是國際編碼,通用性強。UTF-8編碼的文字能夠在各國支持UTF8字符集的瀏覽器上顯示。如,若是是UTF8編碼,則在外國人的英文IE上也能顯示中文,他們無需下載IE的中文語言支持包。

    GBK是國家標準GB2312基礎上擴容後兼容GB2312的標準。GBK的文字編碼是用雙字節來表示的,即不論中、英文字符均使用雙字節來表示,爲了區分中文,將其最高位都設定成1。GBK包含所有中文字符,是國家編碼,通用性比UTF8差,不過UTF8佔用的數據庫比GBK大。

    GBK、GB2312等與UTF8之間都必須經過Unicode編碼才能相互轉換:
    GBK、GB2312--Unicode--UTF8
    UTF8--Unicode--GBK、GB2312

    對於一個網站、論壇來講,若是英文字符較多,則建議使用UTF-8節省空間。不過如今不少論壇的插件通常只支持GBK。

    GB2312是GBK的子集,GBK是GB18030的子集
    GBK是包括中日韓字符的大字符集合
    若是是中文的網站 推薦GB2312 GBK有時仍是有點問題
    爲了不全部亂碼問題,應該採用UTF-8,未來要支持國際化也很是方便
    UTF-8能夠看做是大字符集,它包含了大部分文字的編碼。
    使用UTF-8的一個好處是其餘地區的用戶(如香港臺灣)無需安裝簡體中文支持就能正常觀看你的文字而不會出現亂碼。

    gb2312是簡體中文的碼
    gbk支持簡體中文及繁體中文
    big5支持繁體中文
    utf-8支持幾乎全部字符

首先分析亂碼的狀況
1.寫入數據庫時做爲亂碼寫入
2.查詢結果以亂碼返回
究竟在發生亂碼時是哪種狀況呢?
咱們先在mysql 命令行下輸入
show variables like '%char%';
查看mysql 字符集設置狀況:

mysql> show variables like '%char%';
+--------------------------+----------------------------------------+
| Variable_name            | Value                                  |
+--------------------------+----------------------------------------+
| character_set_client     | gbk                                    | 
| character_set_connection | gbk                                    | 
| character_set_database   | gbk                                    | 
| character_set_filesystem | binary                                 | 
| character_set_results    | gbk                                    | 
| character_set_server     | gbk                                    | 
| character_set_system     | utf8                                   | 
| character_sets_dir       | /usr/local/mysql/share/mysql/charsets/ | 
+--------------------------+----------------------------------------+

    在查詢結果中能夠看到mysql 數據庫系統中客戶端、數據庫鏈接、數據庫、文件系統、查詢結果、服務器、系統的字符集設置。在這裏,文件系統字符集是固定的,系統、服務器的字符集在安裝時肯定,與亂碼問題無關。亂碼的問題與客戶端、數據庫鏈接、數據庫、查詢結果的字符集設置有關。
    *注:客戶端是看訪問mysql 數據庫的方式,經過命令行訪問,命令行窗口就是客戶端,經過JDBC 等鏈接訪問,程序就是客戶端。

     咱們在向mysql 寫入中文數據時,在客戶端、數據庫鏈接、寫入數據庫時分別要進行編碼轉換。在執行查詢時,在返回結果、數據庫鏈接、客戶端分別進行編碼轉換。如今咱們應該清楚,亂碼發生在數據庫、客戶端、查詢結果以及數據庫鏈接這其中一個或多個環節。接下來咱們來解決這個問題。
     在登陸數據庫時,咱們用mysql --default-character-set=字符集-u root -p 進行鏈接,這時咱們再用show variables like '%char%';命令查看字符集設置狀況,能夠發現客戶端、數據庫鏈接、查詢結果的字符集已經設置成登陸時選擇的字符集了。若是是已經登陸了,可使用set names 字符集;命令來實現上述效果,等同於下面的命令:
set character_set_client = 字符集
set character_set_connection = 字符集
set character_set_results = 字符集

若是碰到上述命令無效時,也可採用一種最簡單最完全的方法:

1、Windows

一、停止MySQL服務
二、在MySQL的安裝目錄下找到my.ini,若是沒有就把my-medium.ini複製爲一個my.ini便可
三、打開my.ini之後,在[client]和[mysqld]下面均加上default-character-set=utf8,保存並關閉
四、啓動MySQL服務

要完全解決編碼問題,必須使

| character_set_client     | gbk                                    | 
| character_set_connection | gbk                                    | 
| character_set_database   | gbk                                    | 
| character_set_results    | gbk                                    | 
| character_set_server     | gbk                                    | 
| character_set_system     | utf8     

這些編碼相一致,都統一。

     若是是經過JDBC 鏈接數據庫,能夠這樣寫URL:URL=jdbc:mysql://localhost:3306/abs?useUnicode=true&characterEncoding=字符集     JSP 頁面等終端也要設置相應的字符集。數據庫的字符集能夠修改mysql 的啓動配置來指定字符集,也能夠在create database 時加上default character set 字符集來強制設置database 的字符集。經過這樣的設置,整個數據寫入讀出流程中都統一了字符集,就不會出現亂碼了。爲何從命令行直接寫入中文不設置也不會出現亂碼?能夠明確的是從命令行下,客戶端、數據庫鏈接、查詢結果的字符集設置沒有變化輸入的中文通過一系列轉碼又轉回初始的字符集,咱們查看到的固然不是亂碼。但這並不表明中文在數據庫裏被正確做爲中文字符存儲。舉例來講,如今有一個utf8 編碼數據庫,客戶端鏈接使用GBK 編碼,connection 使用默認的ISO8859-1(也就是mysql 中的latin1),咱們在客戶端發送「中文」這個字符串,客戶端將發送一串GBK 格式的二進制碼給connection 層,connection 層以ISO8859-1 格式將這段二進制碼發送給數據庫,數據庫將這段編碼以utf8 格式存儲下來,咱們將這個字段以utf8格式讀取出來,確定是獲得亂碼,也就是說中文數據在寫入數據庫時是以亂碼形式存儲的,在同一個客戶端進行查詢操做時,作了一套和寫入時相反的操做,錯誤的utf8 格式二進制碼又被轉換成正確的GBK 碼並正確顯示出來。

相關文章
相關標籤/搜索