(1)ASCII碼 編碼
- 一個字節表示的英文、數字、標點符號等字符。
- 國際標準ASCII碼爲0-127即128個字符,二進制最高位爲0,其他爲擴展ASCII碼。
(2)GB2312 code
- 兩字節,主要包含簡體的經常使用中文及符號的字符集編碼。
(3)GBK 擴展
- 單雙字節變長編碼,主要包含簡體與繁體中文和一些符號、偏旁部首的字符集編碼。
(4)GB18030 二進制
- GBK編碼沒法知足需求擴展,多出來的部分使用四字節編碼,即單、雙、四字節編碼;
- 擴展了漢字,還包括了少數民族文字;
(5)Unicode 英文
- 因各國語言、字符差別,Unicode將全部字符統一爲一套字符集。
- UTF-八、UTF-1六、UTF-32是對Unicode字符集的不一樣編碼方案。
(6)UTF-8 語言
- 變長編碼方式,1-4字節表示一個字符,可節省存儲空間;
- 英文1字節,中文通常3字節,最多4字節;
編碼規則:字符集
- 》單字節:同標準ASCII碼,最高位爲0,0-127表示128個字符
- 》多字節:n字節,高位到低位,第一字節前n位爲1,第n+1位爲0;後面字節前兩位爲10;剩餘位由低位向高位填補Unicode嗎,多出補0;
110XXXXX 10XXXXXX
1110XXXX 10XXXXXX 10XXXXXX