先着重介紹一下mysql的字符集,這樣能對產生mysql的根源有一個瞭解。
mysql 的字符集支持有兩個方面:字符集(Character set)和排序方式(Collation)。另外對於字符集的支持細化到四個層次: 服務器(server),數據庫(database),數據表(table)和鏈接(connection)。mysql
連上mysql 後使用status 命令,能夠看到相似以下輸出:sql
>mysql status Connection id: 305 Current database: Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: utf8 Client characterset: utf8 Conn. characterset: utf8
Server characterset 就是mysql默認字符集,當建立數據庫沒有指定字符集時數據庫就採用此默認值。能夠在mysql的配置文件中的 mysqld 段中對此值進行修改數據庫
[mysqld] port = 3306 socket = /tmp/mysql.sock character-set-server = utf8 collation-server = utf8_general_ci
Db characterset:是當前數據庫默認的字符集,當建立表時沒有指定字符集,此表就使用當前默認值。例如建立一個 db_test 數據庫,字符集使用 latin1服務器
CREATE DATABASE `db_test` CHARACTER SET 'latin1' COLLATE 'latin1_swedish_ci'; use db_test;
而後再使用 status 命令,能夠看到這個時候 Db characterset 變爲 latin1 了app
>mysql status Connection id: 305 Current database: db_test Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: latin1 Client characterset: utf8 Conn. characterset: utf8
在數據庫中分別建立兩種表 test1 和 test2,其中 test1 使用默認字符集, test2 指定字符集爲GBKsocket
create table test1 (name varchar(20)); create table test2 (name varchar(20)) default charset=GBK;
使用 show create table 命令查看上述兩張表,能夠看到 test1 使用了當前數據庫的默認字符集latin1,而test2使用的字符集是GBK。測試
mysql> show create table test1; +-------+-------------------------------------------------------------------------------------------------+ | Table | Create Table | +-------+-------------------------------------------------------------------------------------------------+ | test1 | CREATE TABLE `test1` ( `name` varchar(20) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=latin1 | +-------+-------------------------------------------------------------------------------------------------+ mysql> show create table test2; +-------+----------------------------------------------------------------------------------------------+ | Table | Create Table | +-------+----------------------------------------------------------------------------------------------+ | test2 | CREATE TABLE `test2` ( `name` varchar(20) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=gbk | +-------+----------------------------------------------------------------------------------------------+
mysql 存儲信息最終是已二進制的形式來存儲的。因此在存儲以前就須要對信息進行編碼,同時從數據庫讀取信息後須要解碼。具體使用那種編碼、解碼方式就是根據Client characterset以及表對應的字符集,若是沒有顯示的指定,那麼會有一個默認值。當使用命令行的方式鏈接mysql,能夠在mysql 配置中 mysql 段來指定默認Client characterset。例如:編碼
[client] port = 3306 socket = /tmp/mysql.sock default-character-set = utf8
也能夠使用在鏈接時候指定spa
mysql -uroot -p --default-character-set=utf8
另外在登陸mysql 後也能夠使用 set names 來指定命令行
set names utf8
關於優先級,set names utf8 最高,mysql -uroot -p --default-character-set=utf8 其次、my.cnf 最後。
上面對字符集作了一個簡單的介紹,建議你們也把上面的mysql 命令試一下,這樣理解或更加深入。如今再來講一下亂碼的狀況,通常出現亂碼就是由於字符集(編碼)不一樣,換句話說就是當字符集(編碼)一致時就不會出現亂碼。前面介紹了一下字符集,因此知道了好幾種,那究竟是須要什麼字符集一致呢?答案是:Client characterset 與 數據庫表的字符集。 下面仍是經過例子來講明,使用上面建立的表 test1。
因爲test1使用的字符集是 latin1,那麼使用下面的方式連上mysql
mysql -uroot -p db_test --default-character-set=latin1
再次確認一下Client characterset 與 數據庫表的字符集
mysql> status -------------- mysql Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using EditLine wrapper Connection id: 310 Current database: db_test Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: latin1 Client characterset: latin1 Conn. characterset: latin1 ------------------------- mysql> show create table test1; +-------+-------------------------------------------------------------------------------------------------+ | Table | Create Table | +-------+-------------------------------------------------------------------------------------------------+ | test1 | CREATE TABLE `test1` ( `name` varchar(20) DEFAULT NULL ) ENGINE=InnoDB DEFAULT CHARSET=latin1 | +-------+-------------------------------------------------------------------------------------------------+
能夠看到Client characterset與表的字符集是一致的,而後插入一條含有中文的記錄,同時查詢看看。
mysql> insert into test1(name) values('中test文1234測試'); mysql> select * from test1; +----------------------+ | name | +----------------------+ | 中test文1234測試 | +----------------------+
如今證實當Client characterset與表的字符集一致時,沒有出現亂碼。那如今使用set names 來修改一下 Client characterset 看看效果。
mysql> set names utf8; Query OK, 0 rows affected (0.00 sec) mysql> status -------------- mysql Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using EditLine wrapper Connection id: 310 Current database: db_test Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: latin1 Client characterset: utf8 Conn. characterset: utf8 mysql> select * from test1; +--------------------------------------+ | name | +--------------------------------------+ | ä¸testæ–‡1234测试 | +--------------------------------------+
utf8 出現亂碼,再試試gbk
mysql> set names gbk; Query OK, 0 rows affected (0.00 sec) mysql> status -------------- mysql Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using EditLine wrapper Connection id: 310 Current database: db_test Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: latin1 Client characterset: gbk Conn. characterset: gbk mysql> select * from test1; +------------------------+ | name | +------------------------+ | ???test?1234???? | +------------------------+
上面把Client characterset 設置分別設置爲 utf8 或 GBK 後,而後查詢都出現了亂碼,並且亂碼顯示還不同。下面再測試同樣不一樣Client characterset字符集先插入在讀取的狀況。
mysql -uroot -p db_test --default-character-set=utf8 mysql> status -------------- mysql Ver 14.14 Distrib 5.6.23, for osx10.8 (x86_64) using EditLine wrapper Connection id: 312 Current database: db_test Current user: root@localhost SSL: Not in use Current pager: stdout Using outfile: '' Using delimiter: ; Server version: 5.6.23 MySQL Community Server (GPL) Protocol version: 10 Connection: Localhost via UNIX socket Server characterset: utf8 Db characterset: latin1 Client characterset: utf8 Conn. characterset: utf8 mysql> truncate table test1; Query OK, 0 rows affected (0.01 sec) mysql> select * from test1; Empty set (0.00 sec) mysql> insert into test1(name) values('中test文1234測試'); Query OK, 1 row affected, 1 warning (0.00 sec) mysql> select * from test1; +--------------+ | name | +--------------+ | ?test?1234?? | +--------------+
上面的例子說明當字符集不一致出現亂碼了。 若是再把Client characterset 修改成和數據庫表一致,而後看看剛剛插入的記錄是否仍是顯示亂碼
mysql> set names latin1; Query OK, 0 rows affected (0.00 sec) mysql> select * from test1; +--------------+ | name | +--------------+ | ?test?1234?? | +--------------+ 1 row in set (0.00 sec)
仍是亂碼,也就是經過字符集設置也沒法把亂碼還原了。
經過上面這些例子能夠得出結論,只有當Client characterset與表的字符集一致纔不會出現亂碼。