MySQL 中如何存儲 emoji ?

問題還原mysql

使用 erlang 存儲一些特殊字符串到 MySQL 的時候,卻無法讀出來。經檢查,這些字符串的二進制格式以下:sql

<<240,159,152,134,240,159,152,144>>服務器

查看二進制的 unicode 是什麼?編碼

14> unicode:characters_to_list(<<240,159,152,134,240,159,152,144>>)..net

[128518,128528]code

15> erlang:integer_to_list(128518,16).%%查看十六進制server

"1F606"ci

16> erlang:integer_to_list(128528,16).unicode

"1F610"字符串

明顯,1F606 和 1F610 超過了常見 unicode 字符串 0000-FFFF 的表達範圍。

1F606 和 1F610 表明什麼?

根據 unicode 官網上的說明,這是一種 emoji(表情符號),具體的展現形式與廠商有關。

MySQL 上存儲失敗的緣由

目前來講,多數 MySQL 都是以 utf8 存儲,注意 MySQL 的 utf8 和咱們所說的傳統 utf8 有點區別。MySQL 的 utf8 編碼規定了最多隻能有 3 個字節,而 emoji 的 unicode 已經超過了 3 個字節,所以 MySQL 的 utf8 沒法識別與存儲 emoji。

爲此能夠查閱 MySQL 中關於 unicode 支持的資料,從中能夠得知 MySQL 在 5.5 後開始支持 utf8mb4,這種編碼支持 1 ~ 4 個字節,這種編碼能夠表示 emoji。

另外 utf8mb4 向下兼容 utf8。

解決方案

將 MySQL 中對應的字段改爲 utf8mb4 編碼:

ALTER TABLE t1

DEFAULT CHARACTER SET utf8mb4,

MODIFY col1 CHAR(10)

CHARACTER SET utf8mb4 COLLATE utf8mb4_unicode_ci NOT NULL,

MODIFY col2 CHAR(10)

CHARACTER SET utf8mb4 COLLATE utf8mb4_bin NOT NULL;

將鏈接庫的鏈接編碼改成 utf8mb4,下面兄弟連(www.lampbrother.net)就以 erlang 的鏈接庫 emysql 爲例:

emysql:add_pool(pool,[{size,1},{user,"user"},{password,"password"},{host,"host"},{port,3306},{encoding,utf8mb4}]).

%%或者

emysql:add_pool(pool,1,"user","password","host",3306,undefined, utf8mb4).

爲了建表方便,能夠修改 my.cnf:

服務器字符集

[mysql]

default-character-set=utf8mb4

[mysqld]

character-set-server=utf8mb4

相關文章
相關標籤/搜索