編碼歷史

時間 2019-11-21

標籤編碼歷史欄目字符編碼简体版

原文原文鏈接

8位一個字節bytehtml
開始計算機只在美國使用，2^8=256個足以包含一些符號和英文字符了java
1968年提出ASCII碼，分爲三部分編碼

第一部分是：ASCII控制字符；範圍0-31 終端，打印機等控制符號spa
第二部分是：ASCII打印字符；範圍32-127 空格，英文字符等（鍵盤上能找到的）code
第三部分是：擴展ASCII打印字符。範圍128-255 擴展字符集，新的字幕，符號，還有畫表格時的橫線，豎線，交叉等htm

待中國使用計算機時，已經沒有能夠利用的字節狀態來表示漢字，何況有6000多個經常使用漢字須要保存呢。可是這難不倒智慧的中國人民，咱們不客氣地把那些127號以後的奇異符號們直接取消掉, 規定：一個小於127的字符的意義與原來相同，但兩個大於127的字符連在一塊兒時，就表示一個漢字，前面的一個字節（他稱之爲高字節）從0xA1用到 0xF7，後面一個字節（低字節）從0xA1到0xFE，這樣咱們就能夠組合出大約7000多個簡體漢字了。在這些編碼裏，咱們還把數學符號、羅馬希臘的字母、日文的假名們都編進去了，連在 ASCII 裏原本就有的數字、標點、字母都通通從新編了兩個字節長的編碼，這就是常說的"全角"字符，而原來在127號如下的那些就叫"半角"字符了。ip
1980年中國人民看到這樣很不錯，因而就把這種漢字方案叫作 "GB2312"。GB2312 是對 ASCII 的中文擴展。utf-8
後來又發現不夠用，因而繼續擴GB2312->GBK->GB18030unicode

GB2312有6763個漢字，GBK有21003個漢字，GB18030-2000有27533個漢字，GB18030-2005有70244個漢字get

而後就是各個國家都有本身的一套編碼標準，互不兼容，怎麼辦
1990年這時一個叫 ISO （國際標誰化組織）的國際組織決定着手解決這個問題，他們採用的方法很簡單：廢了全部的地區性編碼方案，從新搞一個包括了地球上全部文化、全部字母和符號的編碼！他們打算叫它"Universal Multiple-Octet Coded Character Set"，簡稱 UCS, 俗稱 "UNICODE"。並於1994年正式公佈。

Unicode 1.0：1991年10月
Unicode 2.0：1997年7月
Unicode 3.x：1999年9月；整合ISO 10646
Unicode 4.x：2003年4月
Unicode 5.0：2006年7月
Unicode 5.1：2008年4月
Unicode 5.2：2009年10月
Unicode 6.0：2010年10月
Unicode 6.1：2012年1月
Unicode 6.2：2012年9月
Unicode 6.3：2013年11月

在UNICODE 中，一個字符就是兩個字節。可組合出2^16=65536個字符，這大概已經能夠覆蓋世界上全部文化的符號。若是還不夠也沒有關係，ISO已經準備了UCS-4方案，說簡單了就是四個字節來表示一個字符，這樣咱們就能夠組合出2^31=21億個不一樣的字符出來（最高位有其餘用途），這大概能夠用到銀河聯邦成立那一天吧！（如今unicode的指定範圍爲U+0000 to U+10FFFF，後面的那麼多還待使用），須要注意的是，Unicode只是一個符號集，它只規定了符號的二進制代碼，卻沒有規定這個二進制代碼應該如何存儲，下面的UTF-8是Unicode的實現方式之一
UTF-8是一種針對Unicode的可變長度字符編碼,採用8bit編碼，字節數範圍爲1-6字節（中文通常都是3字節），也就是其可表達最多2^48個字符（尼瑪，這得多大啊），儘管如此，2003年11月UTF-8被RFC 3629從新規範，只能使用原來Unicode定義的區域，即U+0000 to U+10FFFF，也就是說最多4位字節(實際能夠表示的很長，可是這裏給規定死了)，我以爲UTF-8受歡迎的緣由是變長這個特性，可節約空間

UTF-8解析時，對於UTF-8編碼中的任意字節B
若是B的第一位爲0，則B爲ASCII碼，而且B獨立的表示一個字符;
若是B的第一位爲1，第二位爲0，則B爲一個非ASCII字符（該字符由多個字節表示）中的一個字節，而且不是字符的第一個字節編碼，須要往前或後找到第一個字節;
若是B的前兩位爲1，第三位爲0，則B爲一個非ASCII字符（該字符由多個字節表示）中的第一個字節，而且該字符由兩個字節表示;
若是B的前三位爲1，第四位爲0，則B爲一個非ASCII字符（該字符由多個字節表示）中的第一個字節，而且該字符由三個字節表示;
若是B的前四位爲1，第五位爲0，則B爲一個非ASCII字符（該字符由多個字節表示）中的第一個字節，而且該字符由四個字節表示;

另附unicode與utf-8的轉換：（大於4個字節的已給砍掉了）

Unicode和UTF-8之間的轉換關係表：

UCS-4編碼	          UTF-8字節流
U+00000000 – U+0000007F	  0xxxxxxx
U+00000080 – U+000007FF	  110xxxxx 10xxxxxx
U+00000800 – U+0000FFFF	  1110xxxx 10xxxxxx 10xxxxxx
U+00010000 – U+001FFFFF	  11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U+00200000 – U+03FFFFFF	  111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U+04000000 – U+7FFFFFFF	  1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

例如"漢"字的Unicode編碼是6C49。6C49在0800-FFFF之間，因此要用3字節模板：1110xxxx 10xxxxxx 10xxxxxx。將6C49寫成二進制是：0110 1100 0100 1001，將這個比特流按三字節模板的分段方法分爲0110 110001 001001，依次代替模板中的x，獲得：1110-0110 10-110001 10-001001，即E6 B1 89，這就是其UTF8的編碼。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。