控制檯輸出寬字符wchar_t的中文顯示問題

 

在缺省的C locale下,cout能夠直接輸出中文,但對於wcout卻不行(至少VS 2005下不行)。對於wcout,須要將其locale設爲本地語言才能輸出中文:html

wcout輸出時顯示不了中文,加上下面這句就好了。linux

std::wcout.imbue(std::locale("chs"));ios

-----------------------------------------------------------------------------ubuntu

#include <iostream>
#include <locale>
//using namespace std;

//this main function deals with wide character and Chinese character
int main(int argc, char **argv)
{
std::ios_base::sync_with_stdio(false); //garantee that iostreams are not synchronized with stdin or stdout
std::locale loc("zh_CN.utf8"); //set the character set to zh_CN.utf8
std::wcin.imbue(loc); //set the locale of wcin and wcout
std::wcout.imbue(loc);
wchar_t c;
std::wcin >> c; //read the input
std::wcout << c << std::endl;  //output
return 0;
}windows

在這段程序中須要注意:
    1.必須使用wcin和wcout對寬字符進行輸入和輸出,wcin和wcout是cin和cout的寬字符版本,也屬於標準庫的一部分。
    2.main函數首句是標準庫中ios_base類的方法,將iostream與C語言中的stdin/stdout的同步關係取消,不然wcout不能正常輸出中文。
    3.第二句使用std空間中的locale函數設置所用的字符集,在linux環境中的可用字符集使用locale -a獲取。
    4.三四兩句將該字符集應用於wcin和wcout流中。
    5.不少文章中提到的locale loc("chs")方法並不適用於linux系統,windows下是否可行本文沒有測試。
————————————————
版權聲明:本文爲CSDN博主「charles_ma」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處連接及本聲明。
原文連接:https://blog.csdn.net/charles_ma/article/details/7268101ide

 

1.採用ansi編碼方式,在ubuntu下會出錯,另外經過g++ -Wall -finput-charset=ISO-8859-1 test.cpp 方式能夠指定輸入文件格式,可是這樣很麻煩,由於首先要知道文件的格式是什麼,在ubuntu下 經過file  test.cpp 命令能夠查到,我把ISO-8859-1到ISO-8859-16都試了,文件編碼格式ANSI(即ISO8859-XX)且文件中有L"國家" 相似字符,編譯不會經過,或者經過-finput-charset=xxx指定文件格式編譯經過後輸出也不對,故太麻煩。

2.在windows下和ubuntu下都經過的方式是文件編碼採用UTF-8。

3.printf和wprintf不能混用,即一個程序中使用了printf, 就不使用wprintf,反之也是,既然printf輸出char 和 wchar_t字符均可以,因此統一使用printf是最佳選擇。

  固然使用printf打印wchar_t時格式不同,是%ls 或大寫的%S,  例如: printf("wide char: %ls\n", ws);

4. 一旦要打印中文字符,在程序初始化時加一句setlocale(LC_ALL, ""); 不然打印中文會出錯。

5. windows 對 字符串的內部編碼比較統一,char的編碼都成ANSI,如 char  s[] = "國家", s裏存的是」國家」的ANSI編碼

      wchar_t的編碼都成UCS-2,如 wchar_t  ws[] = L"國家", s裏存的是」國家」的UCS-2編碼

    UBUNTU 對字符串的處理不是很統一,char 字符串的編碼是隨着文件編碼格式有所變化,如文件爲ansi,則ubuntu也爲ansi,文件爲UTF-8, 則char s[] = "國家" 裏的也是            UTF-8編碼。

       wchar_t 則默認採用ucs-4編碼。


總結:源代碼文件編碼用UTF-8, 打印採用printf是跨平臺(操做系統,編譯器), 跨char和wchar_t的最佳解決方案之一,另外不能忘了 setlocale(LC_ALL, "");


說的再多,不如本身測試下,以下爲測試代碼,一共有5種case,每次註釋掉其餘case,留要測試的case,並按照case註釋處更改文件編碼方式即可, 更改編碼方式採用notepad++最方便了.函數

#include <stdio.h> #include <string.h> #include <stddef.h> #include <wchar.h> #include <locale.h>
 
// 測試運行環境: // ubuntu 12.04 + g++ 4.6.3(或gcc,改文件後綴就行) // windows 7 + vs2012 // 說明,在註釋中說的編碼E59BBD,是按照打印結果從低字節到高字節排練,並不必定和實際 // 的編碼大小端一致。
 
int main() { //此語句重要,在win7 + vs2012和 ubuntu 12.04測試結果一致,只要打印wchar_t字符,均加此語句,不然出錯。
    setlocale(LC_ALL, ""); /****************** case 1 **********************************/    
    // 文件utf-8編碼, 字符串不加L // ubuntu : ws是utf-8編碼: 如"國":E59BBD; 打印結果:國家 // windows: ws是ansi編碼: 如"國":b9fa; 打印結果: 國家 /* char ws[] = "國家"; char *p = (char *)ws; int i = 0; printf("sizeof(ws) is %d\n", sizeof(ws)); for (; i < sizeof(ws); i++){ printf("byte: %x\n", p[i]); } printf("content start\n"); printf("%s\n", ws); printf("content end\n"); */  
 
        /****************** case 2 **********************************/    
    // 2: 文件ansi編碼, 字符串不加L // ubuntu : ws是ansi編碼,如"國":b9fa; 打印結果:無,出錯 // windows: ws是ansi編碼: 如"國":b9fa; 打印結果: 國家 /* char ws[] = "國家"; char *p = (char *)ws; int i = 0; //setlocale(LC_ALL, "zh_CN.UTF-8"); printf("sizeof(ws) is %d\n", sizeof(ws)); for (; i < sizeof(ws); i++){ printf("byte: %x\n", p[i]); } printf("content start: %s\n", ws); printf("content end\n"); */   
    
    
      /****************** case 3 **********************************/    
    // 3: 文件utf-8編碼, 字符串加L, 必須採用wchar_t, 用char編譯器報錯, 用wprintf打印 // ubuntu : ws是ucs-4編碼,如"國":0x000056fd; 打印結果:國家 // windows: ws是ucs-2編碼: 如"國":0x56fd; 打印結果: 國家 /* wchar_t ws[] = L"國家"; char *p = (char *)ws; int i = 0; wprintf(L"sizeof(ws) is %d\n", sizeof(ws)); for (; i < sizeof(ws); i++){ wprintf(L"byte: %x\n", p[i]); } wprintf(L"wprintf content start:\n"); //必須用wprintf, 且wprintf和printf不能同時使用. wprintf(L"%ls\n", ws); wprintf(L"content end\n"); */          
    
        /****************** case 4 **********************************/    
    // 4: 文件utf-8編碼, 字符串加L, 必須採用wchar_t, 用char編譯器報錯, 用printf打印 // ubuntu : ws是ucs-4編碼,如"國":0x000056fd; 打印結果:國家 // windows: ws是ucs-2編碼: 如"國":0x56fd; 打印結果: 國家
    wchar_t ws[] = L"國家"; char *p = (char *)ws; int i = 0; printf("sizeof(ws) is %d\n", sizeof(ws)); for (; i < sizeof(ws); i++){ printf("byte: %x\n", p[i]); } printf("printf content start:\n");  //wprintf和printf不能同時使用.
    printf("%ls\n", ws); printf("content end\n"); /****************** case 5 **********************************/         
    // 5: 文件ansi編碼, 字符串加L, 必須採用wchar_t, 用char編譯器報錯 // ubuntu : 編譯不經過 // windows: ws是ucs-2編碼: 如"國":0x56fd; 打印結果: 國家 /* wchar_t ws[] = L"國家"; // 文件ansi編碼,ws是unicode編碼: 如國:56fd char *p = (char *)ws; int i = 0; wprintf(L"sizeof(ws) is %d\n", sizeof(ws)); for (; i < sizeof(ws); i++){ wprintf(L"byte: %x\n", p[i]); } wprintf(L"wprintf content start:\n"); //必須用wprintf, 且wprintf和printf不能同時使用. wprintf(L"%ls\n", ws); wprintf(L"content end\n"); */       
    
    while(1); //方便看結果
    return 0; } 
View Code

 


————————————————
版權聲明:本文爲CSDN博主「xiayuleWA」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處連接及本聲明。
原文連接:https://blog.csdn.net/xiayuleWA/article/details/32140493測試

相關文章
相關標籤/搜索