Java字符編碼根本原理

Java字符編碼根本原理
 
Java開發中,經常會遇到亂碼的問題,一旦遇到這種問題,經常就很扯蛋,每一個人都不肯意認可是本身的代碼有問題。其實編碼問題並無那麼神祕,那麼不可捉摸,搞清Java的編碼本質過程就真相大白了。
 
先看個圖:
 
 
其實,編碼問題存在兩個方面:JVM以內和JVM以外。
 
 
一、Java文件編譯後造成class
這裏Java文件的編碼可能有多種多樣,但Java編譯器會自動將這些編碼按照Java文件的編碼格式正確讀取後產生class文件,這裏的class文件編碼是Unicode編碼(具體說是UTF-16編碼)。
 
所以,在Java代碼中定義一個字符串:
String s="漢字";
無論在編譯前java文件使用何種編碼,在編譯後成class後,他們都是同樣的----Unicode編碼表示。
 
二、JVM中的編碼
JVM加載class文件讀取時候使用Unicode編碼方式正確讀取class文件,那麼原來定義的String s="漢字";在內存中的表現形式是Unicode編碼。
 
當調用String.getBytes()的時候,其實已經爲亂碼買下了禍根。由於此方法使用平臺默認的字符集來獲取字符串對應的字節數組。在WindowsXP中文版中,使用的默認編碼是GBK,不信運行下:
public class Test {
         public static void main(String[] args) {
                System.out.println( "當前JRE:" + System.getProperty( "java.version"));
                System.out.println( "當前JVM的默認字符集:" + Charset.defaultCharset());
        }
}
 
當前JRE:1.6.0_16
當前JVM的默認字符集:GBK
 
當不一樣的系統、數據庫通過屢次編碼後,若是對其中的原理不理解,就容易致使亂碼。所以,在一個系統中,有必要對字符串的編碼作一個統一,這個統一模糊點說,就是對外統一。好比方法字符串參數,IO流,在中文系統中,能夠統一使用GBK、GB13080、UTF-八、UTF-16等等均可以,只是要選擇有些更大字符集,以保證任何可能用到的字符均可以正常顯示,避免亂碼的問題。(假設對全部的文件都用ASCII碼)那麼就沒法實現雙向轉換了。
 
要特別注意的是,UTF-8並不是能容納了全部的中文字符集編碼,所以,在特殊狀況下,UTF-8轉GB18030可能會出現亂碼,然而一羣傻B經常在作中文系統喜歡用UTF-8編碼而不說不出個因此然出來!最傻B的是,一個系統多我的作,源代碼文件有的人用GBK編碼,有人用UTF-8,還有人用GB18030。FK,都是中國人,也不是外包項目,用什麼UTF-8啊,神經!源代碼通通都用GBK18030就OK了,省得ANT腳本編譯時候提示不可認的字符編碼。
 
所以,對於中文系統來講,最好選擇GBK或GB18030編碼(其實GBK是GB18030的子集),以便最大限度的避免亂碼現象。
 
三、內存中字符串的編碼
內存中的字符串不只僅侷限於從class代碼中直接加載而來的字符串,還有一些字符串是從文本文件中讀取的,還有的是經過數據庫讀取的,還有多是從字節數組構建的,然而他們基本上都不是Unicode編碼的,緣由很簡單,存儲優化。
 
所以就須要處理各類各樣的編碼問題,在處理以前,必須明確「源」的編碼,而後用指定的編碼方式正確讀取到內存中。若是是一個方法的參數,實際上必須明確該字符串參數的編碼,由於這個參數多是另一個日文系統傳遞過來的。當明確了字符串編碼時候,就能夠按照要求正確處理字符串,以免亂碼。
在對字符串進行解碼編碼的時候,應該調用下面的方法:
getBytes(String charsetName)    
String( byte[] bytes, String charsetName)
 
而不要使用那些不帶字符集名稱的方法簽名,經過上面兩個方法,能夠對內存中的字符進行從新編碼。
相關文章
相關標籤/搜索