綜合技術--ascii、gb23十二、gbk、unicode、utf-8等幾種字符集編碼介紹

ASCII字符集編碼 ASCII碼是 美國標準信息交換碼 的簡稱,是標準的 單字節 編碼。 ASCII碼是7位編碼,編碼範圍是0x00~0x7f,所以能夠看出編碼範圍是0~127。 ASCII碼能夠表示全部的大小寫字母(a~z,A~Z)、數字(0~9)、標點符號、特殊控制字符。 0~31與127(共33個)是控制字符或通訊專用字符。 32~47是空格、驚歎號、大小括號...句號、斜槓等字符。 48~57是0~9十個阿拉伯數字。 58~64是冒號、...@符號。 65~90是A~Z大寫字母。 91~96是[ ... 、符號。 97~122是a~z小寫字母。 123~126是{ | } ~符號。編碼

GB2312字符集編碼 很顯然ascii碼不能知足中文的需求,隨之而來是中國人發明的gb2312碼。 GB2312是第一個漢字編碼的國家標準。 GB2312是基於區位碼設計的,他將編碼表分紅94個區,每一個區包含94個位。 每一個字符的區號和位號組合起來就是該漢字的區位碼。區位碼用10進制數來表示,例如1601表示16區01位,對應的字符是"啊"。 在區位碼的區號和位號上分別加上0xA0就能夠獲得gb2312編碼,所以gb2312的編碼範圍是0xA1A1~0x7E7E。設計

GBK字符集編碼 GBK編碼是GB2312編碼的超集,向下徹底兼容gb2312。 GBK的總體編碼範圍是0x8140~0xfeff,高字節範圍是0x80~0xfe,低字節範圍是0x40~0x7e和0x80~0xfe。code

UNICODE字符集編碼 unicode是ISO爲了解決支持不一樣語言而制定的一個標準,它爲每種語言的每一個字符都設定了一個惟一的二進制碼。 unicode制定了三套編碼方式:utf-八、utf-1六、utf-32。 utf-8,字符是以8位序列來編碼的,用一個或者多個字節(1B=8*b)來表示一個字符。內存

UTF-8 unicode最大的一個問題是:英文字母只須要一個字節表示就夠了,而若是統一規定爲unicode編碼,則可能編碼成2個或3個字節,那麼這無疑是對內存的一種浪費。 unicode在很長一段時間內推廣不開,直到互聯網的大力發展,才解決了unicode的傳輸問題。爲了兼容ascii碼,規定互聯網最小傳輸單位爲8位,這就是utf-8。 utf-8是專爲傳輸而設計的一種編碼方式,並使編碼無國界,這樣就能夠知足世界上全部的字符。 utf-8最大的特色是 它是一種變長的編碼方式,它可使用1~4個字節表示一個符號,根據不一樣的符號產生不一樣的字節。當在ascii碼範圍時,就用一個字節表示;unicode碼對應一箇中文字符佔2個字節,而utf-8佔3個字節。utf-8

相關文章
相關標籤/搜索