MySQL 字符集utf8和utf-8的關係

原文: MySQL 字符集utf8和utf-8的關係


什麼是字符集(character set)

  • 字符的二進制編碼方式
  • 二進制編碼到一套字符的映射
  • 二進制->編碼->字符

校對規則(collation)

  • 在字符集內用於比較字符的一套規則

ASCII碼

  • 1個字節由8個二進制位組成
  • 1個字節可表示256種不一樣的狀態(256個不一樣符號)
  • ASCII碼規定了128個字符(英文字符和一些標點符號)的編碼

Unicode國際化支持

  • 世界上存在多種編碼方式,同一個二進制數字被解釋成了不一樣的符號
  • 現存 編碼 不能在多語言環境中使用,誕生了Unicode(統一碼)
  • 一個字符的Unicode編碼是肯定的
  • Unicode編碼實現方式各不相同
  • Unicode的實現方式稱爲Unicode轉化格式(UTF)

UTF-8

  • UTF-8是Unicode的實現方式之一
  • 其它實現方式還有UTF-16, UTF-32
  • 變長編碼,一個符號使用1~4個字節表示
  • utf8是MySQL存儲Unicode數據的一種可選方法

utf8

  • MySQL中實現了UTF-8編碼的unicode 字符集
  • MySQL中utf8是utf8mb3的別名
  • utf8中,一個符號使用1~3個節點表示
  • 對UTF-8支持不完全,可採用utf8mb4字符集

utf8與utf8mb4的關係

  • 都是實現了UTF-8編碼的unicode 字符集
  • utf8僅支持基本多語言平面Basic Multilingual Plane (BMP)
  • utf8mb4支持BMP以外的補充字符(如emoji,emoji 是一種特殊的 Unicode 編碼)
  • utf8 一個字符最多使用3個字節存儲,utf8mb4 一個字符最多使用4個字節存儲
  • 對於BMP字符,utf8和utf8mb4具備相同的編碼,相同的長度
  • 對於非BMP字符,utf8mb4使用4個字節來存儲,utf8不能存儲非BMP字符
  • innodb中默認最大可對767個字節創建索引
  • 使用utf8 的列最多可對255個字符創建索引
  • 使用utf8mb4 的列最多可對191個字符創建索引

超集

  • 字符集A,B ,B支持的全部字符A都支持,A 是B超集
  • 好比 GBK字符集是GB2312字符集的超集,它們又都是ASCII字符集的超集
  • utf8mb4是utf8的超集

字符集設置

set names x 等價於mysql

  • set character_set_client=x;
  • set character_set_connection=x;
  • set character_set_results=x;

--default-character-set 用戶鏈接時設置字符集 等價於git

  • set character_set_client=x;
  • set character_set_connection=x;
  • set character_set_result=x;
    init-connect=set names binary
  • 讓client和server交互的時候以 什麼模式(不作任何轉化)來傳送

default-character-setgithub

  • 設置[mysql]和[client] 中的字符集

character-set-serversql

  • 設置[mysqld] 進程的默認字符集

collation-serverpost

  • 設置[mysqld] 進程的默認校對規則
  • utf8_general_ci 查找、排序不區分大小寫
  • utf8_bin 查找、排序區分大小寫

參考
Unicode Support
字符集與編碼雜談
ASCII,Unicode 和 UTF-8
清官談mysql中utf8和utf8mb4區別編碼

相關文章
相關標籤/搜索