在軟件開發過程當中,尤爲是涉及到數據庫的項目,一般都會遇到字符編碼的問題。數據庫
其中,中文字符集編碼經常使用的有GB2312和GBK,以及萬國碼UTF8,另外還有GB18030。編碼
ASCII碼每一個字符佔一個字節;GB2312是GBK的子集,兩個字符集都是每一個字符佔兩個字節;GB18030是GBK的取代版本,每一個字符佔一個、兩個或四個字節;UFT8是萬國碼,每一個字符佔一個、兩個或三個字節。開發
下圖是GBK字符編碼表。字符編碼
圖是265*256的矩陣,表示兩個字節能夠表示的全部字符。水平方向表示高字節,從左至右爲0000~FF00;垂直方向表示低字節,從上到下爲0000~00FF。軟件
左側0區:0000~007F,ASCII碼區。im
右下色塊區:8140~FEFE(需剔除a區817F~FE7F),GBK編碼區。數據
GBK編碼分三部分。項目
1、漢字區img
2區:B0A1~F7FE,GBK/2,GB2312漢字區,GB2312漢字6763個。字符集
GB13000.1擴充漢字區
3區:8140~A0FE,GBK/3,GB13000.1中的CJK漢字6080個。
4區:AA40~FEA0,GBK/4,CJK漢字和增補的漢字8160個。
2、圖形符號區
1區:A1A1~A9FE,GBK/1,GB2312非漢字符號區。除GB2312的符號外,還有10個小寫羅馬數字和GB12345增補的符號。計符號717個。
5區:A840~A9A0,GBK/5,GB13000.1擴充非漢字區。包含BIG-5 非漢字符號、結構符和漢字「〇」。計符號166個。
3、用戶自定義區
A區:AAA1~AFFE,碼位564個。
B區:F8A1~FEFE,碼位658個。
C區:A140~A7A0,碼位672個。