碼位(code position/point)Unicode 編碼與 Python 2/3 編碼兼容性問題

Unicode HOWTO
html

0. 碼位(code position/point)

一個碼位由某個數值表示,所有碼位共同構成其碼值空間(code space)。python

  • ASCII,0~7Fhex(128)
  • 拓展 ASCII,0~FFhex(256)
  • Unicode,0~10FFFFhex
    • 1, 114, 112,17×216(17 個平面

2. python 下的編碼

  • bytes.decode() str.encode()

3. UnicodeDecodeError: ‘utf8’ codec can’t decode byte 0x9c

好比在讀取 œ 時,便會形成 UnicodeDecodeError。bash

>> b'\x9c'.decode('cp1252')
'œ'
相關文章
相關標籤/搜索