Unicode 和 UTF-8 之間的轉換關係備註

來源於維基百科UTF-8一詞

關於UTF-8,維基百科的這篇文章講的很是明瞭。UTF-8code

須要備註的是,若是Unicode碼轉換成二進制後的位數不足時,必定要補位。 好比「©」,U+00A9 = 1010 1001 (copyright sign)。佔2個字節,使用110xxxxx 10xxxxxx 形式填充。有11位須要填充,而轉換後的只有8位,因此左邊補上三位 000 1010 1001。ip

轉換成UTF-8的形式 11000010 10101001 = 0xC2 0xA9get

相關文章
相關標籤/搜索