unicode

Unicode只有一個字符集,中、日、韓的三種文字佔用了Unicode中0x3000到0x9FFF的部分 Unicode目前廣泛採用的是UCS-2,它用兩個字節來編碼一個字符, 好比漢字"經"的編碼是0x7ECF,注意字符碼通常用十六進制來 表示,爲了與十進制區分,十六進制以0x開頭,0x7ECF轉換成十進制 就是32463,UCS-2用兩個字節來編碼字符,兩個字節就是16位二進制, 2的16次方等於65536,因此UCS-2最多能編碼65536個字符。 編碼從0到127的字符與ASCII編碼的字符同樣,好比字母"a"的Unicode 編碼是0x0061,十進制是97,而"a"的ASCII編碼是0x61,十進制也是97, 對於漢字的編碼,事實上Unicode對漢字支持不怎麼好,這也是沒辦法的, 簡體和繁體總共有六七萬個漢字,而UCS-2最多能表示65536個,才六萬 多個,因此Unicode只能排除一些幾乎不用的漢字,好在經常使用的簡體漢字 也不過七千多個,爲了能表示全部漢字,Unicode也有UCS-4規範,就是用 4個字節來編碼字符
中文名
Unicode碼
外文名
Unicode
文    字
中、日、韓
字    符
UCS-2
分    類
計算機科學

目錄

  1. 定義
  2. 方法

定義編輯

Unicode碼擴展自ASCII 字元集。在嚴格的ASCII中,每一個字元用7位元表示,或者電腦上廣泛使用的每字元有8位元寬;而Unicode使用全16位元字元集。這使得Unicode可以表示世界上全部的書寫語言中可能用於電腦通信的字元、象形文字和其餘符號。Unicode最初打算做爲ASCII的補充,可能的話,最終將代替它。考慮到ASCII是電腦中最具支配地位的標準,因此這的確是一個很高的目標。
Unicode影響到了電腦工業的每一個部分,但也許會對做業系統和程式設計語言的影響最大。從這方面來看,咱們已經上路了。Windows NT從底層支援Unicode。
目前計算機中用得最普遍的 字符集及其編碼,是由 美國國家標準局(ANSI)制定的ASCII碼(American Standard Code for Information Interchange, 美國標準信息交換碼),它已被 國際標準化組織(ISO)定爲國際標準,稱爲ISO 646標準。適用於全部拉丁文字字母,ASCII碼有7位碼和8位碼兩種形式。

方法編輯

由於1位二進制數能夠表示(2∧1=)2種狀態:0、1;而2位二進制數能夠表示(2∧2)=4種狀態:00、0一、十、11;依次類推,7位二進制數能夠表示(2∧7=)128種狀態,每種狀態都惟一地編爲一個7位的二進制碼,對應一個字符(或控制碼),這些碼能夠排列成一個十進制序號0~127。因此,7位ASCII碼是用七位二進制數進行編碼的,能夠表示128個 字符
第0~32號及第127號(共34個)是 控制字符或通信專用字符,如控制符:LF(換行)、CR(回車)、FF(換頁)、DEL(刪除)、BEL(振鈴)等;
通信專用字符:SOH(文頭)、EOT(文尾)、ACK(確認)等;
第33~126號(共94個)是字符,其中第48~57號爲0~9十個阿拉伯數字;65~90號爲26個大寫英文字母,97~122號爲26個小寫英文字母,其他爲一些標點符號、運算符號等。
注意:在計算機的 存儲單元中,一個ASCII碼值佔一個字節(8個二進制位),其最高位(b7)用做 奇偶校驗位。所謂 奇偶校驗,是指在代碼傳送過程當中用來檢驗是否出現錯誤的一種方法,通常分 奇校驗和偶校驗兩種。奇校驗規定:正確的代碼一個字節中1的個數必須是奇數,若非奇數,則在最高位b7添1; 偶校驗規定:正確的代碼一個字節中1的個數必須是偶數,若非偶數,則在最高位b7添1。
增添Unicode碼內容:它前128個字符就是ASCII碼,以後是擴展碼。在它中,各個字符塊基於一樣的標準。其中有希臘字母,西里爾文,亞美尼亞文,希伯來文等。而漢文,韓語,日語的象形文字佔用從0X3000到0X9FFF的代碼。最傑出的地方是,它只有一個字符集,有效的避免了雙字節字符集的二義性。缺點是:佔用的內存空間比ASCII大2倍。
Unicode碼:Unicode碼也是一種國際標準編碼,採用二個 字節編碼,與ASCII碼不兼容。目前,在網絡、Windows系統和不少大型軟件中獲得應用。
詞條標籤:
計算機術語 , 計算機學
相關文章
相關標籤/搜索