漢字編碼 (GB2312 GBK GB18030)

 

GB2312html

收錄簡化漢字及符號、字母、日文假名等共7445個圖形字符,其中漢字佔6763個
每一個符號都用兩個字節表示,每一個字節均採用七位編碼表示,習慣上 第一個字節是高字節,第二個字節是低字節編碼

GB2312的編碼範圍爲2121H-777EH,與ASCII有重疊,通行方法是將GB碼兩個字節的最高位置1以示區別.net

 

GBKcode

因爲GKB收錄的漢字較少以及配合UNICODE的實施,GBK 產生了
向下兼容GB2312
雙字節表示htm

GBK共收入21886個漢字和圖形符號,包括:blog

GB2312中的所有漢字、非漢字符號。
BIG5中的所有漢字。
與ISO 10646相應的國家標準GB13000中的其它CJK漢字,以上合計20902個漢字。
其它漢字、部首、符號,共計984個。utf-8

 

GB18030  get

最新的漢字編碼字符集國家標準, 向下兼容 GBK 和 GB2312 標準
一二四字節變長編碼
一字節部分與ASCII 編碼兼容
二字節部分與GBK標準基本兼容
四字節部分包括除去二字節部分的的全部unico3.1碼位(也就是說, GB18030 編碼在碼位空間上作到了與 Unicode 標準一一對應,這一點與 UTF-8 編碼相似)方法

 

BIG5margin

繁體字編碼
雙字節
BIG5收錄13461個漢字和符號,包括:

符號408個
經常使用字5401個
次經常使用字7652個

 

CP936 (GBK)

Windows使用代碼頁(code page)來適應各個國家和地區不一樣編碼。
code page能夠被理解爲前面提到 的內碼。GBK對應的code page是CP936。

65001 #utf-8
936 #GBK
437 #美國英語

 

 

參考:

http://www.cnblogs.com/finallyliuyu/archive/2013/05/10/3071023.html

http://blog.csdn.net/liujinchengjx/article/details/1527909

相關文章
相關標籤/搜索