MySQL字符集 GBK、GB23十二、UTF8區別解決 MYSQL中文亂碼問題

時間 2019-11-06

標籤 mysql 字符集 gbk gb23 十二 utf8 utf 區別解決中文亂碼問題欄目 MySQL 简体版

原文原文鏈接

MySQL中涉及的幾個字符集mysql

character-set-server/default-character-set：服務器字符集，默認狀況下所採用的。
character-set-database：數據庫字符集。
character-set-table：數據庫表字符集。
優先級依次增長。因此通常狀況下只須要設置character-set-server，而在建立數據庫和表時不特別指定字符集，這樣統一採用character-set-server字符集。
character-set-client：客戶端的字符集。客戶端默認字符集。當客戶端向服務器發送請求時，請求以該字符集進行編碼。
character-set-results：結果字符集。服務器向客戶端返回結果或者信息時，結果以該字符集進行編碼。
在客戶端，若是沒有定義character-set-results，則採用character-set-client字符集做爲默認的字符集。因此只須要設置character-set-client字符集。sql

要處理中文，則能夠將character-set-server和character-set-client均設置爲GB2312，若是要同時處理多國語言，則設置爲UTF8。數據庫

關於MySQL的中文問題瀏覽器

解決亂碼的方法是，在執行SQL語句以前，將MySQL如下三個系統參數設置爲與服務器字符集character-set-server相同的字符集。
character_set_client：客戶端的字符集。
character_set_results：結果字符集。
character_set_connection：鏈接字符集。
設置這三個系統參數經過向MySQL發送語句：set names gb2312服務器

關於GBK、GB23十二、UTF8

UTF-8：Unicode Transformation Format-8bit，容許含BOM，但一般不含BOM。是用以解決國際上字符的一種多字節編碼，它對英文使用8位（即一個字節），中文使用24爲（三個字節）來編碼。UTF-8包含全世界全部國家須要用到的字符，是國際編碼，通用性強。UTF-8編碼的文字能夠在各國支持UTF8字符集的瀏覽器上顯示。如，若是是UTF8編碼，則在外國人的英文IE上也能顯示中文，他們無需下載IE的中文語言支持包。網站

GBK是國家標準GB2312基礎上擴容後兼容GB2312的標準。GBK的文字編碼是用雙字節來表示的，即不論中、英文字符均使用雙字節來表示，爲了區分中文，將其最高位都設定成1。GBK包含所有中文字符，是國家編碼，通用性比UTF8差，不過UTF8佔用的數據庫比GBD大。編碼

GBK、GB2312等與UTF8之間都必須經過Unicode編碼才能相互轉換：
GBK、GB2312－－Unicode－－UTF8
UTF8－－Unicode－－GBK、GB2312spa

對於一個網站、論壇來講，若是英文字符較多，則建議使用UTF－8節省空間。不過如今不少論壇的插件通常只支持GBK。插件

GB2312是GBK的子集，GBK是GB18030的子集
GBK是包括中日韓字符的大字符集合
若是是中文的網站推薦GB2312 GBK有時仍是有點問題
爲了不全部亂碼問題，應該採用UTF-8，未來要支持國際化也很是方便
UTF-8能夠看做是大字符集，它包含了大部分文字的編碼。
使用UTF-8的一個好處是其餘地區的用戶（如香港臺灣）無需安裝簡體中文支持就能正常觀看你的文字而不會出現亂碼。命令行

gb2312是簡體中文的碼
gbk支持簡體中文及繁體中文
big5支持繁體中文
utf-8支持幾乎全部字符

首先分析亂碼的狀況
1.寫入數據庫時做爲亂碼寫入
2.查詢結果以亂碼返回
究竟在發生亂碼時是哪種狀況呢？
咱們先在mysql 命令行下輸入
show variables like '%char%';
查看mysql 字符集設置狀況:

在查詢結果中能夠看到mysql 數據庫系統中客戶端、數據庫鏈接、數據庫、文件系統、查詢結果、服務器、系統的字符集設置在這裏，文件系統字符集是固定的，系統、服務器的字符集在安裝時肯定，與亂碼問題無關亂碼的問題與客戶端、數據庫鏈接、數據庫、查詢結果的字符集設置有關 *注：客戶端是看訪問mysql 數據庫的方式，經過命令行訪問，命令行窗口就是客戶端，通過JDBC 等鏈接訪問，程序就是客戶端咱們在向mysql 寫入中文數據時，在客戶端、數據庫鏈接、寫入數據庫時分別要進行編碼轉換在執行查詢時，在返回結果、數據庫鏈接、客戶端分別進行編碼轉換如今咱們應該清楚，亂碼發生在數據庫、客戶端、查詢結果以及數據庫鏈接這其中一個或多個環節接下來咱們來解決這個問題在登陸數據庫時，咱們用mysql --default-character-set=字符集-u root -p 進行鏈接，這時咱們再用show variables like '%char%';命令查看字符集設置狀況，能夠發現客戶端、數據庫鏈接、查詢結果的字符集已經設置成登陸時選擇的字符集了若是是已經登陸了，可使用set names 字符集;命令來實現上述效果，等同於下面的命令： set character_set_client = 字符集 set character_set_connection = 字符集 set character_set_results = 字符集若是是經過JDBC 鏈接數據庫，能夠這樣寫URL： URL=jdbc:mysql://localhost:3306/abs?useUnicode=true&characterEncoding=字符集 JSP 頁面等終端也要設置相應的字符集數據庫的字符集能夠修改mysql 的啓動配置來指定字符集，也能夠在create database 時加上 default character set 字符集來強制設置database 的字符集經過這樣的設置，整個數據寫入讀出流程中都統一了字符集，就不會出現亂碼了爲何從命令行直接寫入中文不設置也不會出現亂碼？能夠明確的是從命令行下，客戶端、數據庫鏈接、查詢結果的字符集設置沒有變化輸入的中文通過一系列轉碼又轉回初始的字符集，咱們查看到的固然不是亂碼但這並不表明中文在數據庫裏被正確做爲中文字符存儲舉例來講，如今有一個utf8 編碼數據庫，客戶端鏈接使用GBK 編碼，connection 使用默認的ISO8859-1（也就是mysql 中的latin1），咱們在客戶端發送「中文」這個字符串，客戶端將發送一串GBK 格式的二進制碼給connection 層，connection 層以ISO8859-1 格式將這段二進制碼發送給數據庫，數據庫將這段編碼以utf8 格式存儲下來，咱們將這個字段以utf8 格式讀取出來，確定是獲得亂碼，也就是說中文數據在寫入數據庫時是以亂碼形式存儲的，在同一個客戶端進行查詢操做時，作了一套和寫入時相反的操做，錯誤的utf8 格式二進制碼又被轉換成正確的GBK 碼並正確顯示出來。