漢字在GB家族中是雙字節,但在UTF-8中倒是3字節,因此其編碼方式是1110xxxx 10xxxxxx 10xxxxxx
UTF-8 使用一至四個字節爲每一個字符編碼。128 個 ASCII 字符(Unicode 範圍由 U+0000 至 U+007F)只需一個字節,帶有變音符號的拉丁文、希臘文、西裏爾字母、亞美尼亞語、希伯來文、阿拉伯文、敘利亞文及馬爾代夫語(Unicode 範圍由 U+0080 至 U+07FF)須要二個字節,其餘基本多文種平面(BMP)中的字符(CJK屬於此類-Qieqie注)使用三個字節,其餘 Unicode 輔助平面的字符使用四字節編碼。