Unicode HOWTO
html
0. 碼位(code position/point)
一個碼位由某個數值表示,所有碼位共同構成其碼值空間(code space)。python
- ASCII,0~7Fhex(128)
- 拓展 ASCII,0~FFhex(256)
- Unicode,0~10FFFFhex
- 1, 114, 112,17×216(17 個
平面
)
2. python 下的編碼
- bytes.decode()
⇔
str.encode()
3. UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0x9c
好比在讀取 œ
時,便會形成 UnicodeDecodeError。bash
>> b'\x9c'.decode('cp1252')
'œ'