字節轉換/編碼轉換全爲轉載GBK,BIG5,utf8,unicode

C/C++中的字節轉換

寬字節轉單字節 :size_t wcstombs( char *mbstr, const wchar_t *wcstr, size_t count );
單字節轉寬字節 :size_t mbstowcs( wchar_t *wcstr, const char *mbstr, size_t count );
上面這兩個是標準C++的,下面兩個好像是微軟的函數。不過上面兩個函數只能一個一個的轉換,也就是說一次只能轉換一個字符。下面兩個方法就是 寬字符串與單字節字符串之間的轉換。
寬字節轉多字節 :WideCharToMultiByte   //其實這裏的多字節就是咱們說的char
多字節轉寬字節 :MultiByteToWideChar   //多字節也就是ASCII單字節

  

1.使用方法詳解

  在本文開始之處,先簡要地說一下何爲短字符和寬字符.
  所謂的短字符,就是用8bit來表示的字符,典型的應用是ASCII碼.而寬字符,顧名思義,就是用16bit表示的字符,典型的有UNICODE.關於windows下的ASCII和UNICODE的更多信息,能夠參考這兩本經典著做:《windows 程序設計》,《windows 核心編程》.這兩本書關於這兩種字符都有比較詳細的解說.
  
  寬字符轉換爲多個短字符是一個難點,不過咱們只要掌握到其中的要領,即可如魚得水.
  好吧,那就讓咱們開始吧.
  
  這個是咱們須要轉化的多字節字符串:  
  char sText[20] = {"多字節字符串!OK!"};
  
  咱們須要知道轉化後的寬字符須要多少個數組空間.雖然在這個里程裏面,咱們能夠直接定義一個20個寬字符的數組(若是所有是中文,則寬字符數組須要10個;反之,若是是英文字符,則須要20個。這裏選取的是最大值),而且事實上將運行得很是輕鬆愉快.但假如多字節字符串更多,達到上千個乃至上萬個,咱們將會發現其中浪費的內存將會愈來愈多.因此以多字節字符的個數的兩倍做爲寬字符數組下標的聲明絕對不是一個好主意.
  所幸,咱們可以確知所須要的數組空間.
  咱們只須要將MultiByteToWideChar()的第四個形參設爲-1,便可返回所需的寬字符數組空間的個數:
  DWORD dwNum = MultiByteToWideChar (CP_ACP, 0, sText, -1, NULL, 0);
  
  接下來,咱們只須要分配響應的數組空間:
  wchar_t *pwText;
  pwText = new wchar_t[dwNum];
  if(!pwText)
  {
   delete []pwText;
  }
  
  接着,咱們就能夠着手進行轉換了.在這裏以轉換成ASCII碼作爲例子:
  MultiByteToWideChar (CP_ACP, 0, sText, -1, pwText, dwNum);
  
  最後,使用完畢固然要記得釋放佔用的內存:
  delete []pwText;
  
 
  同理,寬字符轉爲多字節字符的代碼以下:  
  wchar_t wText[20] = {L"寬字符轉換實例!OK!"};
  DWORD dwNum = WideCharToMultiByte(CP_OEMCP,NULL,wText,-1,NULL,0,NULL,FALSE);
  char *psText;
  psText = new char[dwNum];
  if(!psText)
  {
   delete []psText;
  }
  WideCharToMultiByte (CP_OEMCP,NULL,wText,-1,psText,dwNum,NULL,FALSE);
  delete []psText;
  
   若是以前咱們已經分配好空間,而且因爲字符串較短,能夠不理會浪費的空間,僅僅只是想簡單地將短字符和寬字符相互轉換,那有沒有什麼簡便的方法呢?
   WIN32 API裏沒有符合這種要求的函數,但咱們能夠本身進行封裝:
     
  //-------------------------------------------------------------------------------------
  //Description:
  // This function maps a character string to a wide-character (Unicode) string
  //
  //Parameters:
  // lpcszStr: [in] Pointer to the character string to be converted 
  // lpwszStr: [out] Pointer to a buffer that receives the translated string. 
  // dwSize: [in] Size of the buffer
  //
  //Return Values:
  // TRUE: Succeed
  // FALSE: Failed
  // 
  //Example:
  // MByteToWChar(szA,szW,sizeof(szW)/sizeof(szW[0]));
  //---------------------------------------------------------------------------------------
  BOOL MByteToWChar(LPCSTR lpcszStr, LPWSTR lpwszStr, DWORD dwSize)
  {
    // Get the required size of the buffer that receives the Unicode 
    // string. 
    DWORD dwMinSize;
    dwMinSize = MultiByteToWideChar (CP_ACP, 0, lpcszStr, -1, NULL, 0);
  
    if(dwSize < dwMinSize)
    {
     return FALSE;
    }
  
    
    // Convert headers from ASCII to Unicode.
    MultiByteToWideChar (CP_ACP, 0, lpcszStr, -1, lpwszStr, dwMinSize);  
    return TRUE;
  }
  
  //-------------------------------------------------------------------------------------
  //Description:
  // This function maps a wide-character string to a new character string
  //
  //Parameters:
  // lpcwszStr: [in] Pointer to the character string to be converted 
  // lpszStr: [out] Pointer to a buffer that receives the translated string. 
  // dwSize: [in] Size of the buffer
  //
  //Return Values:
  // TRUE: Succeed
  // FALSE: Failed
  // 
  //Example:
  // MByteToWChar(szW,szA,sizeof(szA)/sizeof(szA[0]));
  //---------------------------------------------------------------------------------------
  BOOL WCharToMByte(LPCWSTR lpcwszStr, LPSTR lpszStr, DWORD dwSize)
  {
   DWORD dwMinSize;
   dwMinSize = WideCharToMultiByte(CP_OEMCP,NULL,lpcwszStr,-1,NULL,0,NULL,FALSE);
   if(dwSize < dwMinSize)
   {
    return FALSE;
   }
   WideCharToMultiByte(CP_OEMCP,NULL,lpcwszStr,-1,lpszStr,dwSize,NULL,FALSE);
   return TRUE;
  }
  
  
  使用方法也很簡單,示例以下:
  wchar_t wText[10] = {L"函數示例"};
  char sText[20]= {0};
  WCharToMByte(wText,sText,sizeof(sText)/sizeof(sText[0]));
  MByteToWChar(sText,wText,sizeof(wText)/sizeof(wText[0]));
  
  這兩個函數的缺點在於沒法動態分配內存,在轉換很長的字符串時可能會浪費較多內存空間;優勢是,在不考慮浪費空間的狀況下轉換較短字符串很是方便.

  
2.MultiByteToWideChar()函數亂碼的問題

  有的朋友可能已經發現,在標準的WinCE4.2或WinCE5.0 SDK模擬器下,這個函數都沒法正常工做,其轉換以後的字符全是亂碼.及時更改MultiByteToWideChar()參數也依然如此.
  不過這個不是代碼問題,其結症在於所定製的操做系統.若是咱們定製的操做系統默認語言不是中文,也會出現這種狀況.因爲標準的SDK默認語言爲英文,因此確定會出現這個問題.而這個問題的解決,不能在簡單地更改控制面板的"區域選項"的"默認語言",而是要在系統定製的時候,選擇默認語言爲"中文".
  系統定製時選擇默認語言的位置於:
  Platform -> Setting... -> locale -> default language ,選擇"中文",而後編譯便可.
//---------------------------------------------------------------------------
// 大五碼轉GBK碼:
void __fastcall BIG52GBK(char *szBuf)
{
  if(!strcmp(szBuf, ""))
   return;
  int nStrLen = strlen(szBuf);
  wchar_t *pws = new wchar_t[nStrLen + 1];
  try
  {
   int nReturn = MultiByteToWideChar(950, 0, szBuf, nStrLen, pws, nStrLen + 1);
   BOOL bValue = false;
   nReturn = WideCharToMultiByte(936, 0, pws, nReturn, szBuf, nStrLen + 1, "?", &bValue);
   szBuf[nReturn] = 0;
  }
  __finally
  {
   delete[] pws;
  }
}
//---------------------------------------------------------------------------
// GBK轉大五碼
void __fastcall GBK2BIG5(char *szBuf)
{
  if(!strcmp(szBuf, ""))
   return ;
  int nStrLen = strlen(szBuf);
  wchar_t *pws = new wchar_t[nStrLen + 1];
  try
  {
   MultiByteToWideChar(936, 0, szBuf, nStrLen, pws, nStrLen + 1);
   BOOL bValue = false;
   WideCharToMultiByte(950, 0, pws, nStrLen, szBuf, nStrLen + 1, "?", &bValue);
   szBuf[nStrLen] = 0;
  }
  __finally
  {
   delete[] pws;
  }
}
//----------------------------------------------------------------------------
// GB2312碼轉GBK碼
void __fastcall GB2GBK(char *szBuf)
{
  if(!strcmp(szBuf, ""))
   return;
  int nStrLen = strlen(szBuf);
  WORD wLCID = MAKELCID(MAKELANGID(LANG_CHINESE, SUBLANG_CHINESE_SIMPLIFIED), SORT_CHINESE_PRC);
  int nReturn = LCMapString(wLCID, LCMAP_TRADITIONAL_CHINESE, szBuf, nStrLen, NULL, 0);
  if(!nReturn)
   return;
  char *pcBuf = new char[nReturn + 1];
  try
  {
   wLCID = MAKELCID(MAKELANGID(LANG_CHINESE, SUBLANG_CHINESE_SIMPLIFIED), SORT_CHINESE_PRC);
   LCMapString(wLCID, LCMAP_TRADITIONAL_CHINESE, szBuf, nReturn, pcBuf, nReturn + 1);
   strncpy(szBuf, pcBuf, nReturn);
  }
  __finally
  {
   delete[] pcBuf;
  }
}
//---------------------------------------------------------------------------
// GBK碼轉GB2312碼
void __fastcall GBK2GB(char *szBuf)
{
  if(!strcmp(szBuf, ""))
   return;
  int nStrLen = strlen(szBuf);
  WORD wLCID = MAKELCID(MAKELANGID(LANG_CHINESE, SUBLANG_CHINESE_SIMPLIFIED), SORT_CHINESE_BIG5);
  int nReturn = LCMapString(wLCID, LCMAP_SIMPLIFIED_CHINESE, szBuf, nStrLen, NULL, 0);
  if(!nReturn)
   return;
  char *pcBuf = new char[nReturn + 1];
  try
  {
   wLCID = MAKELCID(MAKELANGID(LANG_CHINESE, SUBLANG_CHINESE_SIMPLIFIED), SORT_CHINESE_BIG5);
   LCMapString(wLCID, LCMAP_SIMPLIFIED_CHINESE, szBuf, nReturn, pcBuf, nReturn + 1);
   strncpy(szBuf, pcBuf, nReturn);
  }
  __finally
  {
   delete []pcBuf;
  }
}
//---------------------------------------------------------------------------
// 測試代碼
void __fastcall TForm1::Button1Click(TObject *Sender)
{
  char szBuf[255];
  // 從GB2312轉到GBK
  strcpy(szBuf, Edit1->Text.c_str());
  GB2GBK(szBuf);
  Edit2->Text = String(szBuf);
  // 從GB2312轉到BIG5,經過GBK中轉
  strcpy(szBuf, Edit1->Text.c_str());
  GB2GBK(szBuf);
  GBK2BIG5(szBuf);
  Edit3->Text = String(szBuf);
}  
相關文章
相關標籤/搜索