字符編碼問題:ANSI、ASCII、UNICODE、UTF8、GBK及其相互轉換

在使用tesseract時,不可避免地會遇到各種字符編碼問題。 各種ANSI、UNICODE、UTF8、GBK總是搞不清楚,製作訓練樣本時剛好藉機瞭解了下字符編碼相關問題,在此記錄備忘。 首先介紹最熟悉的ascii碼(American Standard Code for Information Interchange,美國信息互換標準代碼): 使用8位二進制,0-127表示128個字符,其中前32
相關文章
相關標籤/搜索