字符串與編碼

(1)ASCII碼 編碼

  • 一個字節表示的英文、數字、標點符號等字符。
  • 國際標準ASCII碼爲0-127即128個字符,二進制最高位爲0,其他爲擴展ASCII碼。

(2)GB2312 code

  • 兩字節,主要包含簡體的經常使用中文及符號的字符集編碼。

(3)GBK 擴展

  • 單雙字節變長編碼,主要包含簡體與繁體中文和一些符號、偏旁部首的字符集編碼。

(4)GB18030 二進制

  • GBK編碼沒法知足需求擴展,多出來的部分使用四字節編碼,即單、雙、四字節編碼;
  • 擴展了漢字,還包括了少數民族文字;

(5)Unicode 英文

  • 因各國語言、字符差別,Unicode將全部字符統一爲一套字符集。
  • UTF-八、UTF-1六、UTF-32是對Unicode字符集的不一樣編碼方案。

(6)UTF-8 語言

  • 變長編碼方式,1-4字節表示一個字符,可節省存儲空間;
  • 英文1字節,中文通常3字節,最多4字節;

編碼規則:字符集

  • 》單字節:同標準ASCII碼,最高位爲0,0-127表示128個字符
  • 》多字節:n字節,高位到低位,第一字節前n位爲1,第n+1位爲0;後面字節前兩位爲10;剩餘位由低位向高位填補Unicode嗎,多出補0;
110XXXXX 10XXXXXX

    1110XXXX 10XXXXXX 10XXXXXX
相關文章
相關標籤/搜索