關於UTF-8,維基百科的這篇文章講的很是明瞭。UTF-8code
須要備註的是,若是Unicode碼轉換成二進制後的位數不足時,必定要補位。 好比「©」,U+00A9 = 1010 1001 (copyright sign)。佔2個字節,使用110xxxxx 10xxxxxx 形式填充。有11位須要填充,而轉換後的只有8位,因此左邊補上三位 000 1010 1001。ip
轉換成UTF-8的形式 11000010 10101001 = 0xC2 0xA9get