Ansi與Unicode及慎用W2A等

Ansi與Unicode簡要說明及各自的優缺點
他們是兩種字符的編碼格式,Ansi=窄字節,Unicode=寬字節,Ansi用char格式表示一個字符,佔用一個字節的存儲空間,最多表示255個字符,
表示英文還能夠,但對於中文、日文、韓文等語言來講就不夠用了,因此若是你的程序是Ansi編碼的話,
那麼你寫的中文語言的程序拿到日文、韓文等系統上面就會出現亂碼。因此有了Unicode,用二個字節去表示一個字符,格式是 unsigned short,被定義成 wchar_t 格式
這樣就能夠表示世界上絕大多數的語言了!但有利就有弊,缺點呢?就是空間佔用翻倍了,網絡傳輸的數據量也增大了……
◆ vc++ 6.0 默認爲Ansi編碼,vs200五、vs200八、vs2010 等默認都是Unicode編碼,固然能夠進行工程的設置從而進行編碼的轉換,見演示!
◆ 就我我的觀點:仍是建議你們使用Unicode寬字節的編碼格式,具體見下面:
◆ 系統提供了兩種類型的 API 函數,見:user32.dll 中的 MessageBox 函數,其實 MessageBox 他只是一個宏,他對應的兩個版本的函數分別爲:MessageBoxA 和 MessageBoxW,你在使用的時候系統會根據是否認義了_UNICODE 宏來進行判斷該使用哪一個版本的函數!若是你的工程沒有定義_UNICODE 宏,那麼就使用窄字節的 MessageBoxA,若是定義了,那麼就使用寬字節的 MessageBoxW,具體在vs2008中,右鍵找定義,見演示!
◆ 網摘:Windows 2000 及其之後的 Xp、200三、Vista、Win7 等系統都是使用Unicode從頭進行開發的,若是調用任何一個Windows API 函數並給它傳遞一個 ANSI 字符串,那麼系統首先要將字符串轉換成Unicode,而後將Unicode字符串傳遞給操做系統。若是但願函數返回ANSI字符串,系統就會先將Unicode字符串轉換成ANSI字符串,而後將結果返回給你的應用程序。進行這些字符串的轉換須要佔用系統的時間和內存。經過從頭開始用Unicode來開發應用程序,就可以使你的應用程序更加高效的運行!
==================================================================
②、不一樣編碼格式下的字符串處理及相互轉化:
◆ 你們在編程時常常遇到的數據類型:
● Ansi:
char、char * 、const char *
CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR
● Unicode:
wchar_t、wchar_t * 、const wchar_t *
WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR
● T 通用類型:
TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR
以上,其中:P表明指針的意思,STR表明字符串的意思,L是長指針的意思,在WIN32平臺下能夠忽略,C表明const常量的意思,W表明wide寬字節的意思,T你們能夠理解爲通用類型的意思,
就是能夠根據工程中是否認義_UNICODE 宏,分別定義成不一樣的類型,好比:TCHAR 類型,若是工程中定義了_UNICODE 宏,那麼他最終被定義成 wchar_t 類型,
若是工程中沒有定義_UNICODE 宏,那麼 TCHAR 被最終定義成 char 類型。
〓※※※〓 其方便性就是修改了工程的編碼格式以後不用修改代碼,因此仍是建議你們在編寫程序的時候使用通用類型!
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
◆ 字符串類型的對象的定義:
● Ansi:char *pAnsiStr = "hello";
● Unicode:wchar_t *pUnicodeStr = L"hello";
● 通用類型:TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello");
● 動態申請內存:TCHAR *pszBuf = new TCHAR[100];
其中,_TEXT 和 _T 是同樣的,定義以下:
#define _T(x)       __T(x)
#define _TEXT(x)    __T(x)
來看看 __T 的最終定義:
#ifdef  _UNICODE
#define __T(x)      L##x
#else
#define __T(x)      x
#endif
其中,##爲鏈接起來的意思。
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
◆ 經常使用的字符串處理函數,具體信息見MSDN:
字符串長度:
● Ansi:strlen(char *str);
● Unicode:wcslen(wchar_t *str);
● 通用函數:_tcslen(TCHAR *str);
● Ansi:int atoi(const char *str);
● Unicode:int _wtoi(const wchar_t *str);
● 通用函數:_tstoi(const TCHAR *str);
字符串拷貝:
● Ansi:strcpy(char *strDestination, const char *strSource);
● Unicode:wcscpy(wchar_t *strDestination, const wchar_t *strSource);
● 通用函數:_tcscpy(TCHAR *strDestination, const TCHAR *strSource);
以上函數不安全,在vs2003等以上版本的編譯器中會有warnning警告提示,如下爲安全函數(vc++6.0不支持):
● Ansi:strcpy_s(char *strDestination, size_t numberOfElements, const char *strSource);
● Unicode:wcscpy_s(wchar_t *strDestination, size_t numberOfElements, const wchar_t *strSource);
● 通用函數:_tcscpy_s(TCHAR *strDestination, size_t numberOfElements, const TCHAR *strSource);
numberOfElements
Size of the destination string buffer. 目的緩衝區的大小,以字節爲單位,不是字符!
size_t unsigned integer,在MSDN中的解釋:Result of sizeof operator,也就是說 size_t 是 unsigned integer 即無符號整數。那爲何會有size_t這個類型呢?
由於不一樣平臺的操做系統(32/64)中 int/long 等類型所佔的字節並不同,而 size_t 在不一樣的平臺下有不一樣的定義。有點相似於TCHAR類型:
#ifndef   _SIZE_T_DEFINED
  #ifdef     _WIN64
  typedef   unsigned   __int64         size_t;   //8個字節,64位
  #else
  typedef   _W64   unsigned   int       size_t;   //4個字節,32位
  #endif
  #define   _SIZE_T_DEFINED
#endif
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
◆ Ansi 與 Unicode 字符串類型的互相轉換:
上面給你們介紹的都是窄字節就是窄字節,寬字節就是寬字節,那麼下面就給你們介紹下他們兩個之間的轉換。
在程序中仍是不建議你們來回來去的進行字符串編碼的轉換,要麼就都使用Ansi,要麼就都使用Unicode,
可是呢,每每有些 API 函數只提供了窄字節版本(好比:GetProcAddress,見MSDN)或者只提供寬字節版本(好比:CommandLineToArgvW,見MSDN),
這個時候就要進行字符串編碼格式的轉換了。
可是,這裏提醒下你們,不是全部的都須要轉換,有一些是不須要轉換的,好比 socket 中的 send 或者 recv 函數,你們要明白函數參數的真正意義!
=================================================
◆ 字符串佔用字節數:
● Ansi:
char szStr[] = "abc";
佔用字節數求法:sizeof(szStr);
char *psz = "defgh";
佔用字節數求法:strlen(psz)*sizeof(char);
● Unicode:
wchar_t szwStr[] = L"abc";
佔用字節數求法:sizeof(szwStr);
wchar_t *pwsz = L"defgh";
佔用字節數求法:wcslen(pwsz)*sizeof(wchar_t);
● 通用函數:
TCHAR szStr[] = _T("abc");
佔用字節數求法:sizeof(szStr);
TCHAR *psz = _T("defgh");
佔用字節數求法:_tcslen(psz)*sizeof(TCHAR);
=======================================================
● 轉換用到的最根本的 API 函數:
WideCharToMultiByte 實現寬字節轉換到窄字節
MultiByteToWideChar 實現窄字節轉換到寬字節
WideCharToMultiByte 的代碼頁用來標記與新轉換的字符串相關的代碼頁;
MultiByteToWideChar 的代碼頁用來標記與一個多字節字符串相關的代碼頁,
[1]、經常使用的代碼頁有 CP_ACP 和 CP_UTF8 兩個:
使用 CP_ACP 代碼頁就實現了 ANSI 與 Unicode 之間的轉換;--- 咱們所用的!
使用 CP_UTF8 代碼頁就實現了 UTF-8 與 Unicode 之間的轉換。
[2]、dwFlags 參數容許咱們進行額外的控制,可是,通常狀況下都不使用這個標誌,直接傳遞 0 就好了。
[3]、lpDefaultChar和pfUsedDefaultChar:只有當WideCharToMultiByte函數遇到一個寬字節字符,而該字符在uCodePage參數標識的代碼頁中並無它的表示法時,WideCharToMultiByte函數才使用這兩個參數。若是寬字節字符不能被轉換,該函數便使用lpDefaultChar參數指向的字符。若是該參數是NULL(這是大多數狀況下的參數值),那麼該函數使用系統的默認字符。該默認字符一般是個問號。這對於文件名來講是危險的,由於問號是個通配符。pfUsedDefaultChar參數指向一個布爾變量,若是Unicode字符串中至少有一個字符不能轉換成等價多字節字符,那麼函數就將該變量置爲TRUE。若是全部字符均被成功地轉換,那麼該函數就將該變量置爲FALSE。當函數返回以便檢查寬字節字符串是否被成功地轉換後,能夠測試該變量。 
● 兩個轉換函數的使用舉例:
char *cctryWideCharToAnsi(wchar_t *pWideChar)
{
 if (!pWideChar) return NULL;
 char *pszBuf = NULL;
 int needBytes = WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, NULL, 0, NULL, NULL);
 if (needBytes > 0){
  pszBuf = new char[needBytes+1];
  ZeroMemory(pszBuf, (needBytes+1)*sizeof(char));
  WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, pszBuf, needBytes, NULL, NULL);
 }
 return pszBuf;
}
wchar_t *cctryAnsiCharToWide(char *pChar)
{
 if (!pChar) return NULL;
 wchar_t *pszBuf = NULL;
 int needWChar = MultiByteToWideChar(CP_ACP, 0, pChar, -1, NULL, 0);
 if (needWChar > 0){
  pszBuf = new wchar_t[needWChar+1];
  ZeroMemory(pszBuf, (needWChar+1)*sizeof(wchar_t));
  MultiByteToWideChar(CP_ACP, 0, pChar, -1, pszBuf, needWChar);
 }
 return pszBuf;
}
〓※※※〓 使用事後千萬別忘記釋放空間……
● A2W、W2A、T2A、T2W 宏的使用以及注意事項:
[1]、使用 alloca() 函數進行空間的申請,宏返回的地址空間是從棧上面申請的,那麼之後就沒必要釋放,這樣就涉及到了一個做用域的問題,具體見MSDN,
你們能夠簡單的理解爲「向下兼容」,給你們解釋解釋!
[2]、不要在一個函數的循環體中使用 A2W 等字符轉換宏,可能引發棧溢出。
具體課參照這篇帖子:http://hi.baidu.com/%C0%C7%CD%F5%BA%BF%D4%C2/blog/item/adb713e42320712827979154.html
好比:
#include <atlconv.h>
void func()
{
    while(true)
    {
        {
            USES_CONVERSION;
            testFunc(A2W("abc"));
        }
    }
}
相關文章
相關標籤/搜索