Unicode 字符編碼模型 - 0x01_簡介

GitHub@ orca-j35,全部筆記均託管於 python_notes 倉庫
歡迎任何形式的轉載,但請務必註明出處。

我會寫 5 篇文章來介紹 Unicode 字符編碼模型(CHARACTER ENCODING MODEL)
本文會簡要介紹一下模型的層次結構,並逐一列出相關的參考的資料php

Unicode 字符編碼模型分爲四個層級(level),概況以下:html

  • ACR: Abstract Character Repertoire 抽象字符庫

    要編碼(encoded)的字符集,好比:某些字母或符號集java

  • CCS: Coded Character Set 編碼字符集

    從抽象字符庫到到一組非負整數的映射python

  • CEF: Character Encoding Form 字符編碼模式

    從一組非負整數到一組特定代碼單元序列的映射,其中的非負整數應是 CCS 中元素,代碼單元也應擁有指定寬度,如 32-bit 整數。git

  • CES: Character Encoding Scheme 字符編碼方案

    從代碼單元序列到 8-bits 字節序列的可逆轉換。若是容許的話,會包含字節順序標記(byte order mark - BOM)。github

將編碼模型分爲四個層級的目的是:建立一組能夠經過各類編碼模式編碼的通用字符集,也就是說,同一字符集能夠對應多種編碼方式。網站

除了以上四個層級外,另外還有兩個有用的概念:編碼

  • CM: Character Map 字符映射

    這一律念將上述四個層級打包到一個操做中,包含從"抽象字符庫成員序列"到字節序列的所有過程。spa

  • TES: Transfer Encoding Syntax 傳輸編碼語法

    應用於文本和其它編碼數據的可逆轉換,數據須要通過轉換後才容許被傳輸,例如 Base64 和 uuencode。code

參考

有關"字符編碼模型"的筆記參考了以下內容:

字符屬性

想要獲取關於字符屬性的信息,可閱讀以下內容:

擴展閱讀

書籍和網站

歡迎關注公衆號: import hello

公衆號

相關文章
相關標籤/搜索