理解並解決GBK轉UTF-8奇數中文亂碼（轉）

時間 2019-11-19

標籤理解並解 gbk utf 奇數中文亂碼简体版

原文原文鏈接

最近在作一個反饋功能，把數據反饋到對方公司網站，我公司是GBK編碼，對方公司是UTF-8編碼。所以，我須要將GBK編碼數據轉換成UTF-8編碼數據，這樣對方網站纔不會亂碼。最簡單的方法是將HttpClient的ContentCharset設置爲utf-8；若是ContentCharset是gbk而且又不想設置爲utf-8，那麼就須要將數據轉換成UTF-8編碼再發到對方網站。數組

問題出現：GBK轉UTF-8時，奇數箇中文會亂碼，偶數箇中文不會亂碼。
三個中文app

Java代碼

public static void encodeError() throws UnsupportedEncodingException {
String gbk = "我來了";
String utf8 = new String(gbk.getBytes("UTF-8"));
//模擬UTF-8編碼的網站顯示
System.out.println(new String(utf8.getBytes(),"UTF-8"));
}
/*
我來??
*/

前面三個中文，後面一箇中文，都是奇數網站

Java代碼

public static void encodeError2() throws UnsupportedEncodingException {
String gbk = "今年是2011年";
String utf8 = new String(gbk.getBytes("UTF-8"));
//模擬UTF-8編碼的網站顯示
System.out.println(new String(utf8.getBytes(),"UTF-8"));
}
/*
今年??011??
*/

緣由：爲何只有奇數箇中文才亂碼，偶數個卻不亂碼？下面來分析緣由編碼

Java代碼

public static void analyze() throws UnsupportedEncodingException {
String gbk = "我來了";
String utf8 = new String(gbk.getBytes("UTF-8"));
for (byte b : gbk.getBytes("UTF-8")) {
System.out.print(b + " ");
}
System.out.println();
for (byte b : utf8.getBytes()) {
System.out.print(b + " ");
}
}
/*
-26 -120 -111 -26 -99 -91 -28 -70 -122
-26 -120 -111 -26 -99 -91 -28 -70 63
*/

注意最後一個字節不一樣，上面一行纔是正確的UTF-8編碼。那麼爲何下面一行最後一個字節是63，而不是-122呢？這就是致使亂碼的緣由所在。
GBK編碼是一箇中文2個字節，而UTF-8編碼是一箇中文3個字節，當咱們調用getBytes("UTF-8")方法時，會經過計算來增長字節，使得從GBK的2個字節變成UTF-8對應的3個字節。所以，上例3箇中文輸出了9個字節。spa

這裏講一下怎麼經過計算增長字節，不深究的讀者能夠跳過此段。爲了醒目，直接用代碼講解code

Java代碼