Unicode 字符編碼模型 - 0x01_簡介

時間 2020-01-09

原文原文鏈接

GitHub@ orca-j35，全部筆記均託管於 python_notes 倉庫
歡迎任何形式的轉載，但請務必註明出處。
我會寫 5 篇文章來介紹 Unicode 字符編碼模型(CHARACTER ENCODING MODEL)
本文會簡要介紹一下模型的層次結構，並逐一列出相關的參考的資料php

Unicode 字符編碼模型分爲四個層級(level)，概況以下：html

ACR: Abstract Character Repertoire 抽象字符庫
要編碼(encoded)的字符集，好比：某些字母或符號集java
CCS: Coded Character Set 編碼字符集
從抽象字符庫到到一組非負整數的映射python
CEF: Character Encoding Form 字符編碼模式
從一組非負整數到一組特定代碼單元序列的映射，其中的非負整數應是 CCS 中元素，代碼單元也應擁有指定寬度，如 32-bit 整數。git
CES: Character Encoding Scheme 字符編碼方案
從代碼單元序列到 8-bits 字節序列的可逆轉換。若是容許的話，會包含字節順序標記(byte order mark - BOM)。github

將編碼模型分爲四個層級的目的是：建立一組能夠經過各類編碼模式編碼的通用字符集，也就是說，同一字符集能夠對應多種編碼方式。網站

除了以上四個層級外，另外還有兩個有用的概念：編碼

CM: Character Map 字符映射
這一律念將上述四個層級打包到一個操做中，包含從"抽象字符庫成員序列"到字節序列的所有過程。spa
TES: Transfer Encoding Syntax 傳輸編碼語法
應用於文本和其它編碼數據的可逆轉換，數據須要通過轉換後才容許被傳輸，例如 Base64 和 uuencode。code