unicode

時間 2019-11-18

原文原文鏈接

Unicode只有一個字符集，中、日、韓的三種文字佔用了Unicode中0x3000到0x9FFF的部分 Unicode目前廣泛採用的是UCS-2,它用兩個字節來編碼一個字符，好比漢字"經"的編碼是0x7ECF,注意字符碼通常用十六進制來表示，爲了與十進制區分，十六進制以0x開頭，0x7ECF轉換成十進制就是32463,UCS-2用兩個字節來編碼字符，兩個字節就是16位二進制， 2的16次方等於65536,因此UCS-2最多能編碼65536個字符。編碼從0到127的字符與ASCII編碼的字符同樣，好比字母"a"的Unicode 編碼是0x0061,十進制是97,而"a"的ASCII編碼是0x61,十進制也是97, 對於漢字的編碼，事實上Unicode對漢字支持不怎麼好，這也是沒辦法的，簡體和繁體總共有六七萬個漢字，而UCS-2最多能表示65536個，才六萬多個，因此Unicode只能排除一些幾乎不用的漢字，好在經常使用的簡體漢字也不過七千多個，爲了能表示全部漢字，Unicode也有UCS-4規範，就是用 4個字節來編碼字符

中文名: Unicode碼
外文名: Unicode

文字: 中、日、韓
字符: UCS-2
分類: 計算機科學

定義編輯

Unicode碼擴展自ASCII 字元集。在嚴格的ASCII中，每一個字元用7位元表示，或者電腦上廣泛使用的每字元有8位元寬；而Unicode使用全16位元字元集。這使得Unicode可以表示世界上全部的書寫語言中可能用於電腦通信的字元、象形文字和其餘符號。Unicode最初打算做爲ASCII的補充，可能的話，最終將代替它。考慮到ASCII是電腦中最具支配地位的標準，因此這的確是一個很高的目標。

Unicode影響到了電腦工業的每一個部分，但也許會對做業系統和程式設計語言的影響最大。從這方面來看，咱們已經上路了。Windows NT從底層支援Unicode。

目前計算機中用得最普遍的字符集及其編碼，是由美國國家標準局(ANSI)制定的ASCII碼（American Standard Code for Information Interchange，美國標準信息交換碼），它已被國際標準化組織（ISO）定爲國際標準，稱爲ISO 646標準。適用於全部拉丁文字字母，ASCII碼有7位碼和8位碼兩種形式。

方法編輯

由於1位二進制數能夠表示（2∧1=）2種狀態：0、1；而2位二進制數能夠表示（2∧2）=4種狀態：00、0一、十、11；依次類推，7位二進制數能夠表示（2∧7=）128種狀態，每種狀態都惟一地編爲一個7位的二進制碼，對應一個字符（或控制碼），這些碼能夠排列成一個十進制序號0～127。因此，7位ASCII碼是用七位二進制數進行編碼的，能夠表示128個字符。

第0～32號及第127號(共34個)是控制字符或通信專用字符，如控制符：LF（換行）、CR（回車）、FF（換頁）、DEL（刪除）、BEL（振鈴）等；

通信專用字符：SOH（文頭）、EOT（文尾）、ACK（確認）等；

第33～126號(共94個)是字符，其中第48～57號爲0～9十個阿拉伯數字；65～90號爲26個大寫英文字母，97～122號爲26個小寫英文字母，其他爲一些標點符號、運算符號等。

注意：在計算機的存儲單元中，一個ASCII碼值佔一個字節(8個二進制位)，其最高位(b7)用做奇偶校驗位。所謂奇偶校驗，是指在代碼傳送過程當中用來檢驗是否出現錯誤的一種方法，通常分奇校驗和偶校驗兩種。奇校驗規定：正確的代碼一個字節中1的個數必須是奇數，若非奇數，則在最高位b7添1；偶校驗規定：正確的代碼一個字節中1的個數必須是偶數，若非偶數，則在最高位b7添1。

增添Unicode碼內容：它前128個字符就是ASCII碼，以後是擴展碼。在它中，各個字符塊基於一樣的標準。其中有希臘字母，西里爾文，亞美尼亞文，希伯來文等。而漢文，韓語，日語的象形文字佔用從0X3000到0X9FFF的代碼。最傑出的地方是，它只有一個字符集，有效的避免了雙字節字符集的二義性。缺點是：佔用的內存空間比ASCII大2倍。

Unicode碼：Unicode碼也是一種國際標準編碼，採用二個字節編碼，與ASCII碼不兼容。目前，在網絡、Windows系統和不少大型軟件中獲得應用。

詞條標籤：

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

unicode

目錄

定義編輯

方法編輯