NLP基礎編程------中文編碼

0. ASCII 1個字節,使用其中七位二進制數,定義128個字符 最高位不使用,恆等爲0. 1. 擴展ASCII( ISO 8859) 原有ASCII 表示128位,最高位不用 擴展ASCII使用第一位後,7位擴展到8位. 增加128個碼元,擴展到256,增加了一些歐洲國家的字母,主要爲拉丁系 但是對於中文還是不夠 2. GB2312-80(又叫國標碼) 漢字有多少個? 漢字標準共有 6763
相關文章
相關標籤/搜索