Unicode編碼

  1. 簡介編碼

    Unicode編碼是一種統一標識字符串的方法,即一個字符串對應一個編號(code point),表示爲U+xxxx。其中xxxx爲十六進制的編號,範圍是000000~10FFFF。code

  2. 分類utf-8

    • utf-32:每一個字符都用四個字節存儲,徹底對應編號。字符串

      優勢:查找快方法

      缺點:費空間poi

    • utf-16:變長的存儲方式,基本平面的(U+0000~U+FFFF)2個字節,輔助平面的(U+010000~U+10FFFF)4個字節。co

      在基本平面中,U+D800~U+DBFF是空的,故能夠用來標識並存儲輔助平面的高10位,低10位在下一個字符的U+DC00~U+DFFF中。這樣就將輔助平面的20位分別存放在兩個16位的字符中了。字符

    • utf-8:變長的存儲方式,1~4個字節不等。

    • ucs

相關文章
相關標籤/搜索