GBK字符集

GBK字庫

  編輯

同義詞 GBK通常指GBK字庫html

GBK全稱《漢字內碼擴展規範》(GBK即「國標」、「擴展」漢語拼音的第一個字母,英文名稱:Chinese Internal Code Specification) , 中華人民共和國全國信息技術標準化技術委員會1995年12月1日製訂, 國家技術監督局標準化司、電子工業部科技與 質量監督司1995年12月15日聯合以技監標函1995 229號文件的形式,將它肯定爲技術規範指導性文件。這一版的GBK規範爲1.0版。
 
中文名
漢字編碼字符集
外文名
Chinese Internal Code Specification
全    稱
《漢字內碼擴展規範》
類    別
計算機編碼
 

基本含義

編輯
GBK 向下與 GB 2312 編碼兼容,向上支持 ISO 10646.1 國際標準,是前者向後者過渡過程當中的一個承上啓下的產物。ISO 10646 是 國際標準化組織 ISO 公佈的一個編碼標準,即 Universal Multilpe-Octet Coded Character Set(簡稱UCS),大陸譯爲《通用多八位編碼字符集》,臺灣譯爲《廣用多八位元編碼字元集》,它與 Unicode 組織的 Unicode 編碼徹底兼容。ISO 10646.1 是該標準的第一部分《體系結構與基本多文種平面》。我國 1993 年以 GB 13000.1 國家標準的形式予以承認(即 GB 13000.1 等同於 ISO 10646.1)。
GBK編碼,是在 GB2312-80標準基礎上的 內碼擴展規範,使用了雙 字節編碼方案,其編碼範圍從8140至FEFE(剔除xx7F),共23940個碼位,共收錄了21003個漢字,徹底兼容 GB2312-80標準,支持國際標準ISO/IEC10646-1和國家標準GB13000-1中的所有中日韓漢字,幷包含了BIG5編碼中的全部漢字。GBK編碼方案於1995年10月制定, 1995年12月正式發佈,目前中文版的 WIN95、WIN9八、 WINDOWS NT以及WINDOWS 2000、WINDOWS XP、WIN 7等都支持GBK編碼方案。
 

代碼與縮寫

編輯
一、原gb2312 HTML編碼標籤代碼以下:
gbk簡寫截圖gbk簡寫截圖
<metahttp-equiv="Content-Type"content="text/html;charset=gb2312"/>
二、能夠縮寫爲<meta charset="gb2312"/>或<meta charset="gbk"/>[1]  
三、gbk簡寫截圖(右圖)
四、縮寫兼容性:全部瀏覽器均兼容,不管新舊版本IE仍是不一樣品牌瀏覽器均兼容。至於GBK編碼簡寫時候編碼填寫爲gb2312仍是填寫爲gbk,DIVCSS認爲沒有什麼區別,都可。爲了符合你們都使用gbk字符編碼,你們能夠寫爲「gb2312」。
 

知識連接

編輯
咱們常用各類編碼標準的漢字,編碼究竟是什麼呢?所謂編碼,是以固定的順序排列 字符,並以此作爲記錄、存貯、傳遞、交換的統一內部特徵,這個字符排列順序被稱爲「編碼」。和中文 字庫有關的編碼標準有:國標GB碼、GBK碼、港臺BIG-5碼等,不一樣編碼的漢字字庫都與漢字的應用有密切關係。
不少人在使用過程當中,發現字不夠用,由於目前你們使用的主要是GB編碼字庫,此編碼標準只收錄了6763個經常使用漢字,而GB字庫之外大量 漢字,只能經過方正女媧補字軟件拼字或其它造字程序補字。儘管補出的漢字在字形上知足須要,但在字體風格、大小、結構方面難以協調統一,而採用手工 貼圖的方式補字,更不雅觀。進而言之,若是用戶創建信息系統,或須要查詢新聞、出版內容時,靠補字是沒法實現的。方正開發的GBK 字庫,將極大地緩解缺字現象。
從GB字庫擴充到GBK字庫,增長了1萬4千多字。 北大方正從1996年投入大量人力,開始作黑、宋、仿、楷GBK字庫,並於1998年4月成爲第一家經過國家權威部門組織的GBK字庫鑑定的專業廠商。到如今爲止,北大方正已將所有字體轉換成GBK字庫,共46款,其中18款字數達21003個,是擁有GBK字庫款數最多的廠商。
ISO 10646 是一個包括世界上各類語言的書面形式以及附加符號的編碼體系。其中的漢字部分稱爲「CJK 統一漢字」(C 指中國,J 指日本,K 指朝鮮)。而其中的中國部分,包括了源自中國大陸的 GB 23十二、GB 1234五、《 現代漢語通用字表》等法定標準的漢字和符號,以及源自臺灣的 CNS 11643 標準中第 一、2 字面(基本等同於 BIG-5 編碼)、第 14 字面的漢字和符號。
 

相關概念

編輯
 

編碼方式

經實際測試和查閱文檔,GBK是採用單雙字節變長編碼,英文使用單字節編碼,徹底兼容ASCII字符編碼,中文部分採用雙字節編碼。
 

字彙

GBK 規範收錄了 ISO 10646.1 中的所有 CJK 漢字和符號,並有所補充。具體包括:
1. GB 2312 中的所有漢字、非漢字符號。
2. GB 13000.1 中的其餘 CJK 漢字。以上合計 20902 個 GB 化漢字。
3. 《簡化字總表》中未收入 GB 13000.1 的 52 個漢字。
4. 《 康熙字典》及《辭海》中未收入 GB 13000.1 的 28 個部首及重要構件。
5. 13 個漢字結構符。
6. BIG-5 中未被 GB 2312 收入、但存在於 GB 13000.1 中的 139 個圖形符號。
7. GB 12345 增補的 6 個拼音符號。
8. 漢字「○」。
9. GB 12345 增補的 19 個豎排標點符號(GB 12345 較 GB 2312 增補豎排標點符號 29 個,其中 10 個未被 GB 13000.1 收入,故 GBK 亦不收)。
10. 從 GB 13000.1 的 CJK 兼容區挑選出的 21 個漢字。
11. GB 13000.1 收入的 31 個 IBM OS/2 專用符號。
12.未錄入《 新華字典》上的一些字,如「韡」的簡體。
 

分配及順序

GBK 亦採用雙 字節表示,整體編碼範圍爲 8140-FEFE,首字節在 81-FE 之間,尾字節在 40-FE 之間,剔除 xx7F 一條線。總計 23940 個碼位,共收入 21886 個漢字和圖形符號,其中漢字(包括部首和構件)21003 個,圖形符號 883 個。
所有編碼分爲三大部分:
1. 漢字區。包括:
a. GB 2312 漢字區。即 GBK/2: B0A1-F7FE。收錄 GB 2312 漢字 6763 個,按原順序排列。
b. GB 13000.1 擴充漢字區。包括:
(1) GBK/3: 8140-A0FE。收錄 GB 13000.1 中的 CJK 漢字 6080 個。
(2) GBK/4: AA40-FEA0。收錄 CJK 漢字和增補的漢字 8160 個。CJK 漢字在前,按 UCS 代碼大小排列;增補的漢字(包括部首和構件)在後,按《 康熙字典》的頁碼/ 字位排列。
2. 圖形符號區。包括:
a. GB 2312 非漢字符號區。即 GBK/1: A1A1-A9FE。其中除 GB 2312 的符號外,還有 10 個小寫羅馬數字和 GB 12345 增補的符號。計符號 717 個。
b. GB 13000.1 擴充非漢字區。即 GBK/5: A840-A9A0。BIG-5 非漢字符號、結構符和「○」排列在此區。計符號 166 個。
3. 用戶自定義區:分爲(1)(2)(3)三個小區。
(1) AAA1-AFFE,碼位 564 個。
(2) F8A1-FEFE,碼位 658 個。
(3) A140-A7A0,碼位 672 個。
第(3)區儘管對用戶開放,但限制使用,由於不排除將來在此區域增補新 字符的可能性。
 

字形

GBK 對字形做了以下的規定:
1. 原則上與 GB 13000.1 G列(即源自中國大陸法定標準的漢字)下的字形/筆形保持一致。
2. 在 CJK 漢字認同規則的總框架內,對全部的 GBK 編碼漢字實施「無重碼正形」(「GB 化」);即在不形成重碼的前提下,儘可能採用中國新字形。
3. 對於超出 CJK 漢字認同規則的、或認同規則還沒有明確規定的漢字,在 GBK 碼位上暫安放舊字形。這樣,在許多狀況下 GBK 收入了同一漢字的新舊兩種字形。
4. 非漢字符號的字形,凡 GB 2312 已經包括的,與 GB 2312 保持一致;超出 GB 2312 的部分,與 GB 13000.1 保持一致。
5. 帶聲調的拼音字母取 半角形式。
 

實踐應用

編輯
伴隨GBK 字庫的推廣使用,中國 新華通信社於2000年1月1日起開始使用GBK編碼向各新聞單位播發新聞稿。2000年4月1日起,中國銀行業開始推行「 儲蓄實名制」。 同時,各類出版物已開始向網絡化發展,網上發佈新聞、網絡出版已經是大勢所趨,經過網絡傳播信息的廣度和深度對漢字使用提出了更高要求,GBK字庫是緩解人名和地名等冷僻字的「固然之選」。
北大方正已爲廣大用戶使用GBK字庫作好了充分準備,其出版系統已全面支持GBK字庫,如 方正書版9.0、 方正飛騰從1.0版本、世紀RIP從1.0版本開始就支持GBK字庫,用戶的補字量將大大下降。方正GBK字庫的使用很是便捷。排版軟件方面,目前Windows上大多數 文字處理軟件,如MS Office、PageMaker、 金山WPS等均已支持GBK 字庫,方正書版9.0、方正飛騰3.6和方正世紀RIP徹底支持GBK字庫。輸入法方面,除了Windows上的 全拼、王碼五筆等主流輸入法支持GBK字庫外,北大方正還專門爲GBK的輸入製做了一本GBK 內碼字典,用戶能夠用查字典的方法很快找到漢字的GBK編碼完成錄入。
相關文章
相關標籤/搜索