漢字在UTF-8中的須要幾個字節表示

漢字在UTF-8中的須要幾個字節表示

漢字在GB家族中是雙字節,但在UTF-8中倒是3字節,因此其編碼方式是1110xxxx 10xxxxxx 10xxxxxx
UTF-8 使用一至四個字節爲每一個字符編碼。128 個 ASCII 字符(Unicode 範圍由 U+0000 至 U+007F)只需一個字節,帶有變音符號的拉丁文、希臘文、西裏爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及馬爾代夫語(Unicode 範圍由 U+0080 至 U+07FF)須要二個字節,其餘基本多文種平面(BMP)中的字符(CJK屬於此類-Qieqie注)使用三個字節,其餘 Unicode 輔助平面的字符使用四字節編碼。
 
摘自:
 
思考:
1.按這麼說目前爲止,沒有5個字節的UTF-8的字符表示。
2.漢字都是3個字節,轉換unicode的能夠直接存在wchar中。
問題:
1.如果4個字節的utf-8,轉換成unicode是否要存在 wchar[2] 中呢?
 
歡迎探討分享
相關文章
相關標籤/搜索