字符集及其存儲方式(解決亂碼問題)

在我們進行文本挖掘或處理文檔時,都要面臨一個最最基本的問題->就是解決亂碼問題。在此,介紹最本質的字符編碼。 我們熟悉的有三種:ASCII字符集,中文字符集(GBK),Unicode字符集   ASCII字符集 故事:        美國信息交換標準代碼,這是計算機上最早使用的通用的編碼方案。那個時候計算機還只是拉丁文字的專利,根本沒有想到現在計算機的發展勢頭,如果想到了,可能一開始就會使用uni
相關文章
相關標籤/搜索