理解並解決GBK轉UTF-8奇數中文亂碼(轉)

最近在作一個反饋功能,把數據反饋到對方公司網站,我公司是GBK編碼,對方公司是UTF-8編碼。所以,我須要將GBK編碼數據轉換成UTF-8編碼數據,這樣對方網站纔不會亂碼。最簡單的方法是將HttpClient的ContentCharset設置爲utf-8;若是ContentCharset是gbk而且又不想設置爲utf-8,那麼就須要將數據轉換成UTF-8編碼再發到對方網站。數組

 

問題出現:GBK轉UTF-8時,奇數箇中文會亂碼,偶數箇中文不會亂碼。
三個中文app

Java代碼   收藏代碼
  1. public static void encodeError() throws UnsupportedEncodingException {  
  2.     String gbk = "我來了";  
  3.     String utf8 = new String(gbk.getBytes("UTF-8"));  
  4.   
  5.     //模擬UTF-8編碼的網站顯示  
  6.     System.out.println(new String(utf8.getBytes(),"UTF-8"));  
  7. }  
  8. /* 
  9. 我來?? 
  10. */  

 前面三個中文,後面一箇中文,都是奇數網站

Java代碼   收藏代碼
  1. public static void encodeError2() throws UnsupportedEncodingException {  
  2.     String gbk = "今年是2011年";  
  3.     String utf8 = new String(gbk.getBytes("UTF-8"));  
  4.   
  5.     //模擬UTF-8編碼的網站顯示  
  6.     System.out.println(new String(utf8.getBytes(),"UTF-8"));  
  7. }  
  8. /* 
  9. 今年??011?? 
  10. */  

 

緣由:爲何只有奇數箇中文才亂碼,偶數個卻不亂碼?下面來分析緣由編碼

Java代碼   收藏代碼
  1. public static void analyze() throws UnsupportedEncodingException {  
  2.     String gbk = "我來了";  
  3.     String utf8 = new String(gbk.getBytes("UTF-8"));  
  4.     for (byte b : gbk.getBytes("UTF-8")) {  
  5.         System.out.print(b + " ");  
  6.     }  
  7.     System.out.println();  
  8.     for (byte b : utf8.getBytes()) {  
  9.         System.out.print(b + " ");  
  10.     }  
  11. }  
  12. /* 
  13. -26 -120 -111 -26 -99 -91 -28 -70 -122  
  14. -26 -120 -111 -26 -99 -91 -28 -70 63  
  15. */  

 注意最後一個字節不一樣,上面一行纔是正確的UTF-8編碼。那麼爲何下面一行最後一個字節是63,而不是-122呢?這就是致使亂碼的緣由所在。
GBK編碼是一箇中文2個字節,而UTF-8編碼是一箇中文3個字節,當咱們調用getBytes("UTF-8")方法時,會經過計算來增長字節,使得從GBK的2個字節變成UTF-8對應的3個字節。所以,上例3箇中文輸出了9個字節。spa

 

這裏講一下怎麼經過計算增長字節,不深究的讀者能夠跳過此段。爲了醒目,直接用代碼講解code

Java代碼   收藏代碼
  1. public static void gbk2Utf() throws UnsupportedEncodingException {  
  2.     String gbk = "我來了";  
  3.     char[] c = gbk.toCharArray();  
  4.     byte[] fullByte = new byte[3*c.length];  
  5.     for (int i=0; i<c.length; i++) {  
  6.         String binary = Integer.toBinaryString(c[i]);  
  7.         StringBuffer sb = new StringBuffer();  
  8.         int len = 16 - binary.length();  
  9.         //前面補零  
  10.         for(int j=0; j<len; j++){  
  11.                 sb.append("0");  
  12.             }  
  13.         sb.append(binary);  
  14.         //增長位,達到到24位3個字節  
  15.         sb.insert(0, "1110");  
  16.             sb.insert(8, "10");  
  17.             sb.insert(16, "10");  
  18.             fullByte[i*3] = Integer.valueOf(sb.substring(0, 8), 2).byteValue();//二進制字符串建立整型  
  19.             fullByte[i*3+1] = Integer.valueOf(sb.substring(8, 16), 2).byteValue();  
  20.             fullByte[i*3+2] = Integer.valueOf(sb.substring(16, 24), 2).byteValue();  
  21.     }  
  22.     //模擬UTF-8編碼的網站顯示  
  23.     System.out.println(new String(fullByte,"UTF-8"));  
  24. }  

 

如今咱們來找出最後一個字節是63,而不是-122的緣由。utf-8

Java代碼   收藏代碼
  1. public static void analyze2() throws UnsupportedEncodingException {  
  2.     String gbk = "我來了";  
  3.     byte[] utfBytes = gbk.getBytes("UTF-8");//獲得9個字節  
  4.     String utf8 = new String(utfBytes);//問題就出在這  
  5.     System.out.print(utf8);  
  6. }  
  7. /* 
  8. 鎴戞潵浜? 
  9. */  

 由於文件是GBK編碼,new String(utfBytes)默認就是new String(utfBytes,"GBK")。它會2個字節2個字節地轉換成字符,當字節是奇數時最後1個字節轉字符就會計算錯誤,而後直接賦予最後這個字符爲?,對應ASCII代碼就是63。字符串

 

解決問題
保證字節正確纔是硬道理。當調用getBytes("UTF-8")轉換成字節數組後,建立ISO-8859-1編碼的字符串,ISO-8859-1編碼是一個字節對應一個字符,所以不會使最後一個字節錯誤。get

Java代碼   收藏代碼
  1. public static void correctEncode() throws UnsupportedEncodingException {  
  2.     String gbk = "我來了";  
  3.     String iso = new String(gbk.getBytes("UTF-8"),"ISO-8859-1");  
  4.     for (byte b : iso.getBytes("ISO-8859-1")) {  
  5.         System.out.print(b + " ");  
  6.     }  
  7.     System.out.println();  
  8.   
  9.     //模擬UTF-8編碼的網站顯示  
  10.     System.out.println(new String(iso.getBytes("ISO-8859-1"),"UTF-8"));  
  11. }  
  12. /* 
  13. -26 -120 -111 -26 -99 -91 -28 -70 -122  
  14. 我來了 
  15. */  

 

http://www.iteye.com/topic/1097560string

相關文章
相關標籤/搜索