Ansi與Unicode及慎用W2A等

時間 2019-11-12

標籤 ansi unicode 慎用 w2a 欄目字符編碼简体版

原文原文鏈接

Ansi與Unicode簡要說明及各自的優缺點

他們是兩種字符的編碼格式，Ansi=窄字節，Unicode=寬字節，Ansi用char格式表示一個字符，佔用一個字節的存儲空間，最多表示255個字符，

表示英文還能夠，但對於中文、日文、韓文等語言來講就不夠用了，因此若是你的程序是Ansi編碼的話，

那麼你寫的中文語言的程序拿到日文、韓文等系統上面就會出現亂碼。因此有了Unicode，用二個字節去表示一個字符，格式是 unsigned short，被定義成 wchar_t 格式

這樣就能夠表示世界上絕大多數的語言了！但有利就有弊，缺點呢？就是空間佔用翻倍了，網絡傳輸的數據量也增大了……

◆ vc++ 6.0 默認爲Ansi編碼，vs200五、vs200八、vs2010 等默認都是Unicode編碼，固然能夠進行工程的設置從而進行編碼的轉換，見演示！

◆ 就我我的觀點：仍是建議你們使用Unicode寬字節的編碼格式，具體見下面：

◆ 系統提供了兩種類型的 API 函數，見：user32.dll 中的 MessageBox 函數，其實 MessageBox 他只是一個宏，他對應的兩個版本的函數分別爲：MessageBoxA 和 MessageBoxW，你在使用的時候系統會根據是否認義了_UNICODE 宏來進行判斷該使用哪一個版本的函數！若是你的工程沒有定義_UNICODE 宏，那麼就使用窄字節的 MessageBoxA，若是定義了，那麼就使用寬字節的 MessageBoxW，具體在vs2008中，右鍵找定義，見演示！

◆ 網摘：Windows 2000 及其之後的 Xp、200三、Vista、Win7 等系統都是使用Unicode從頭進行開發的，若是調用任何一個Windows API 函數並給它傳遞一個 ANSI 字符串，那麼系統首先要將字符串轉換成Unicode，而後將Unicode字符串傳遞給操做系統。若是但願函數返回ANSI字符串，系統就會先將Unicode字符串轉換成ANSI字符串，而後將結果返回給你的應用程序。進行這些字符串的轉換須要佔用系統的時間和內存。經過從頭開始用Unicode來開發應用程序，就可以使你的應用程序更加高效的運行！

==================================================================

②、不一樣編碼格式下的字符串處理及相互轉化：

◆ 你們在編程時常常遇到的數據類型：

● Ansi：

char、char * 、const char *

CHAR、(PCHAR、PSTR、LPSTR)、LPCSTR

● Unicode：

wchar_t、wchar_t * 、const wchar_t *

WCHAR、(PWCHAR、PWSTR、LPWSTR)、LPCWSTR

● T 通用類型：

TCHAR、(TCHAR * 、PTCHAR、PTSTR、LPTSTR)、LPCTSTR

以上，其中：P表明指針的意思，STR表明字符串的意思，L是長指針的意思，在WIN32平臺下能夠忽略，C表明const常量的意思，W表明wide寬字節的意思，T你們能夠理解爲通用類型的意思，

就是能夠根據工程中是否認義_UNICODE 宏，分別定義成不一樣的類型，好比：TCHAR 類型，若是工程中定義了_UNICODE 宏，那麼他最終被定義成 wchar_t 類型，

若是工程中沒有定義_UNICODE 宏，那麼 TCHAR 被最終定義成 char 類型。

〓※※※〓其方便性就是修改了工程的編碼格式以後不用修改代碼，因此仍是建議你們在編寫程序的時候使用通用類型！

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

◆ 字符串類型的對象的定義：

● Ansi：char *pAnsiStr = "hello";

● Unicode：wchar_t *pUnicodeStr = L"hello";

● 通用類型：TCHAR *pTStr = _T("hello"); 或者 TCHAR *pTStr = _TEXT("hello");

● 動態申請內存：TCHAR *pszBuf = new TCHAR[100];

其中，_TEXT 和 _T 是同樣的，定義以下：

#define _T(x) __T(x)

#define _TEXT(x) __T(x)

來看看 __T 的最終定義：

#ifdef _UNICODE

#define __T(x) L##x

#else

#define __T(x) x

#endif

其中，##爲鏈接起來的意思。

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

◆ 經常使用的字符串處理函數，具體信息見MSDN：

字符串長度：

● Ansi：strlen(char *str);

● Unicode：wcslen(wchar_t *str);

● 通用函數：_tcslen(TCHAR *str);

● Ansi：int atoi(const char *str);

● Unicode：int _wtoi(const wchar_t *str);

● 通用函數：_tstoi(const TCHAR *str);

字符串拷貝：

● Ansi：strcpy(char *strDestination, const char *strSource);

● Unicode：wcscpy(wchar_t *strDestination, const wchar_t *strSource);

● 通用函數：_tcscpy(TCHAR *strDestination, const TCHAR *strSource);

以上函數不安全，在vs2003等以上版本的編譯器中會有warnning警告提示，如下爲安全函數（vc++6.0不支持）：

● Ansi：strcpy_s(char *strDestination, size_t numberOfElements, const char *strSource);

● Unicode：wcscpy_s(wchar_t *strDestination, size_t numberOfElements, const wchar_t *strSource);

● 通用函數：_tcscpy_s(TCHAR *strDestination, size_t numberOfElements, const TCHAR *strSource);

numberOfElements

Size of the destination string buffer. 目的緩衝區的大小，以字節爲單位，不是字符！

size_t unsigned integer，在MSDN中的解釋：Result of sizeof operator，也就是說 size_t 是 unsigned integer 即無符號整數。那爲何會有size_t這個類型呢？

由於不一樣平臺的操做系統(32/64)中 int/long 等類型所佔的字節並不同，而 size_t 在不一樣的平臺下有不一樣的定義。有點相似於TCHAR類型：

#ifndef _SIZE_T_DEFINED

#ifdef _WIN64

typedef unsigned __int64 size_t; //8個字節，64位

#else

typedef _W64 unsigned int size_t; //4個字節，32位

#endif

#define _SIZE_T_DEFINED

#endif

@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@

◆ Ansi 與 Unicode 字符串類型的互相轉換：

上面給你們介紹的都是窄字節就是窄字節，寬字節就是寬字節，那麼下面就給你們介紹下他們兩個之間的轉換。

在程序中仍是不建議你們來回來去的進行字符串編碼的轉換，要麼就都使用Ansi，要麼就都使用Unicode，

可是呢，每每有些 API 函數只提供了窄字節版本（好比：GetProcAddress，見MSDN）或者只提供寬字節版本（好比：CommandLineToArgvW，見MSDN），

這個時候就要進行字符串編碼格式的轉換了。

可是，這裏提醒下你們，不是全部的都須要轉換，有一些是不須要轉換的，好比 socket 中的 send 或者 recv 函數，你們要明白函數參數的真正意義！

=================================================

◆ 字符串佔用字節數：

● Ansi：

char szStr[] = "abc";

佔用字節數求法：sizeof(szStr);

char *psz = "defgh";

佔用字節數求法：strlen(psz)*sizeof(char);

● Unicode：

wchar_t szwStr[] = L"abc";

佔用字節數求法：sizeof(szwStr);

wchar_t *pwsz = L"defgh";

佔用字節數求法：wcslen(pwsz)*sizeof(wchar_t);

● 通用函數：

TCHAR szStr[] = _T("abc");

佔用字節數求法：sizeof(szStr);

TCHAR *psz = _T("defgh");

佔用字節數求法：_tcslen(psz)*sizeof(TCHAR);

=======================================================

● 轉換用到的最根本的 API 函數：

WideCharToMultiByte 實現寬字節轉換到窄字節

MultiByteToWideChar 實現窄字節轉換到寬字節

WideCharToMultiByte 的代碼頁用來標記與新轉換的字符串相關的代碼頁；

MultiByteToWideChar 的代碼頁用來標記與一個多字節字符串相關的代碼頁，

[1]、經常使用的代碼頁有 CP_ACP 和 CP_UTF8 兩個：

使用 CP_ACP 代碼頁就實現了 ANSI 與 Unicode 之間的轉換；--- 咱們所用的！

使用 CP_UTF8 代碼頁就實現了 UTF-8 與 Unicode 之間的轉換。

[2]、dwFlags 參數容許咱們進行額外的控制，可是，通常狀況下都不使用這個標誌，直接傳遞 0 就好了。

[3]、lpDefaultChar和pfUsedDefaultChar：只有當WideCharToMultiByte函數遇到一個寬字節字符，而該字符在uCodePage參數標識的代碼頁中並無它的表示法時，WideCharToMultiByte函數才使用這兩個參數。若是寬字節字符不能被轉換，該函數便使用lpDefaultChar參數指向的字符。若是該參數是NULL（這是大多數狀況下的參數值），那麼該函數使用系統的默認字符。該默認字符一般是個問號。這對於文件名來講是危險的，由於問號是個通配符。pfUsedDefaultChar參數指向一個布爾變量，若是Unicode字符串中至少有一個字符不能轉換成等價多字節字符，那麼函數就將該變量置爲TRUE。若是全部字符均被成功地轉換，那麼該函數就將該變量置爲FALSE。當函數返回以便檢查寬字節字符串是否被成功地轉換後，能夠測試該變量。

● 兩個轉換函數的使用舉例：

char *cctryWideCharToAnsi(wchar_t *pWideChar)

{

if (!pWideChar) return NULL;

char *pszBuf = NULL;

int needBytes = WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, NULL, 0, NULL, NULL);

if (needBytes > 0){

pszBuf = new char[needBytes+1];

ZeroMemory(pszBuf, (needBytes+1)*sizeof(char));

WideCharToMultiByte(CP_ACP, 0, pWideChar, -1, pszBuf, needBytes, NULL, NULL);

}

return pszBuf;