GitHub@ orca-j35,全部筆記均託管於 python_notes 倉庫
歡迎任何形式的轉載,但請務必註明出處。我會寫 5 篇文章來介紹 Unicode 字符編碼模型(CHARACTER ENCODING MODEL)
本文會簡要介紹一下模型的層次結構,並逐一列出相關的參考的資料php
Unicode 字符編碼模型分爲四個層級(level),概況以下:html
要編碼(encoded)的字符集,好比:某些字母或符號集java
從抽象字符庫到到一組非負整數的映射python
從一組非負整數到一組特定代碼單元序列的映射,其中的非負整數應是 CCS 中元素,代碼單元也應擁有指定寬度,如 32-bit 整數。git
從代碼單元序列到 8-bits 字節序列的可逆轉換。若是容許的話,會包含字節順序標記(byte order mark - BOM)。github
將編碼模型分爲四個層級的目的是:建立一組能夠經過各類編碼模式編碼的通用字符集,也就是說,同一字符集能夠對應多種編碼方式。網站
除了以上四個層級外,另外還有兩個有用的概念:編碼
這一律念將上述四個層級打包到一個操做中,包含從"抽象字符庫成員序列"到字節序列的所有過程。spa
應用於文本和其它編碼數據的可逆轉換,數據須要通過轉換後才容許被傳輸,例如 Base64 和 uuencode。code
有關"字符編碼模型"的筆記參考了以下內容:
想要獲取關於字符屬性的信息,可閱讀以下內容:
5 Properties - UNICODE CHARACTER DATABASE,主要關注如下部分
unicodedata
— Unicode Database