ANSI 和 UNICODE 的函數對應表

時間 2019-11-19

原文原文鏈接

ANSI UNICODE 通用
(char.h) (wchar.h) (tchar.h)html

char wchar_t TCHAR
char * wchar_t * PTCHAR (PTSTR,LPWSTR,PWSTR,WCHAR)安全

printf wprintf _tprintf
scanf wscanf _tscanfide

atoi       _wtoi           _ttoi
atol       _wtol           _ttol
itoa         _itow           _itot
ltoa         _ltow           _ltot函數

atof _wtof _tstof編碼

strlen       wcslen          _tcslen
strcat      wcscat          _tcscat
strcpy      wcscpy           _tcscpy
strcmp     wcscmp            _tcscmp線程

補充：指針

寬字符和字符轉換
char to wchar:
mbstowcs(
wchar_t* wcstr,
const char* mbstr,
size_t count
);
wchar to char:
size_t wcstombs( char *mbstr, const wchar_t *wcstr, size_t count );code

第一個就是寬字符到多字節字符轉換函數，函數原型以下：
int WideCharToMultiByte(
UINT CodePage,
DWORD dwFlags,
LPCWSTR lpWideCharStr,
int cchWideChar,
LPSTR lpMultiByteStr,
int cbMultiByte,
LPCSTR lpDefaultChar,
LPBOOL lpUsedDefaultChar
);htm

此函數把寬字符串轉換成指定的新的字符串，如ANSI，UTF8等，新字符串沒必要是多字節字符集。參數：
CodePage：指定要轉換成的字符集代碼頁，它能夠是任何已經安裝的或系統自帶的字符集，你也可使用以下所示代碼頁之一。
CP_ACP 當前系統ANSI代碼頁
CP_MACCP 當前系統Macintosh代碼頁
CP_OEMCP 當前系統OEM代碼頁，一種原始設備製造商硬件掃描碼
CP_SYMBOL Symbol代碼頁，用於Windows 2000及之後版本，我不明白是什麼
CP_THREAD_ACP 當前線程ANSI代碼頁，用於Windows 2000及之後版本，我不明白是什麼
CP_UTF7 UTF-7，設置此值時lpDefaultChar和lpUsedDefaultChar都必須爲NULL
CP_UTF8 UTF-8，設置此值時lpDefaultChar和lpUsedDefaultChar都必須爲NULL
我想最經常使用的應該是CP_ACP和 CP_UTF8了，前者將寬字符轉換爲ANSI，後者轉換爲UTF8。
dwFlags：指定如何處理沒有轉換的字符，但不設此參數函數會運行的更快一些，我都是把它設爲0。可設的值以下表所示：
WC_NO_BEST_FIT_CHARS 把不能直接轉換成相應多字節字符的Unicode字符轉換成lpDefaultChar指定的默認字符。也就是說，若是把Unicode轉換成多字節字符，而後再轉換回來，你並不必定獲得相同的Unicode字符，由於這期間可能使用了默認字符。此選項能夠單獨使用，也能夠和其餘選項一塊兒使用。
WC_COMPOSITECHECK 把合成字符轉換成預製的字符。它能夠與後三個選項中的任何一個組合使用，若是沒有與他們中的任何一個組合，則與選項WC_SEPCHARS相同。
WC_ERR_INVALID_CHARS 此選項會導致函數遇到無效字符時失敗返回，而且GetLastError會返回錯誤碼ERROR_NO_UNICODE_TRANSLATION。不然函數會自動丟棄非法字符。此選項只能用於UTF8。
WC_DISCARDNS 轉換時丟棄不佔空間的字符，與WC_COMPOSITECHECK一塊兒使用
WC_SEPCHARS 轉換時產生單獨的字符，此是默認轉換選項，與WC_COMPOSITECHECK一塊兒使用
WC_DEFAULTCHAR 轉換時使用默認字符代替例外的字符，(最多見的如'?')，與WC_COMPOSITECHECK一塊兒使用。
當指定 WC_COMPOSITECHECK時，函數會將合成字符轉換成預製字符。合成字符由一個基字符和一個不佔空間的字符(如歐洲國家及漢語拼音的音標)組成，每個都有不一樣的字符值。預製字符有一個用於表示基字符和不佔空間字符的合成體的單一的字符值。
當指定WC_COMPOSITECHECK 選項時，也可使用上表列出的最後3個選項來定製預製字符的轉換規則。這些選項決定了函數在遇到寬字符串的合成字符沒有對應的預製字符時的行爲，他們與 WC_COMPOSITECHECK一塊兒使用，若是都沒有指定，函數默認WC_SEPCHARS。
對於下列代碼頁，dwFlags必須爲0，否則函數返回錯誤碼ERROR_INVALID_FLAGS。
50220 50221 50222 50225 50227 50229 52936 54936 57002到57011 65000(UTF7) 42(Symbol)
對於UTF8，dwFlags必須爲0或 WC_ERR_INVALID_CHARS，不然函數都將失敗返回並設置錯誤碼ERROR_INVALID_FLAGS，你能夠調用 GetLastError得到。blog

lpWideCharStr：待轉換的寬字符串。
cchWideChar：待轉換寬字符串的長度，-1表示轉換到字符串結尾。
lpMultiByteStr：接收轉換後輸出新串的緩衝區。
cbMultiByte：輸出緩衝區大小，若是爲0，lpMultiByteStr將被忽略，函數將返回所需緩衝區大小而不使用lpMultiByteStr。
lpDefaultChar：指向字符的指針，在指定編碼裏找不到相應字符時使用此字符做爲默認字符代替。若是爲NULL則使用系統默認字符。對於要求此參數爲NULL的dwFlags而使用此參數，函數將失敗返回並設置錯誤碼 ERROR_INVALID_PARAMETER。
lpUsedDefaultChar：開關變量的指針，用以代表是否使用過默認字符。對於要求此參數爲NULL的dwFlags而使用此參數，函數將失敗返回並設置錯誤碼ERROR_INVALID_PARAMETER。 lpDefaultChar和lpUsedDefaultChar都設爲NULL，函數會更快一些。
返回值：若是函數成功，且cbMultiByte非0，返回寫入lpMultiByteStr的字節數(包括字符串結尾的null)；cbMultiByte爲 0，則返回轉換所需字節數。函數失敗，返回0。
注意：函數WideCharToMultiByte使用不當，會給影響程序的安全。調用此函數會很容易致使內存泄漏，由於lpWideCharStr指向的輸入緩衝區大小是寬字符數，而lpMultiByteStr指向的輸出緩衝區大小是字節數。爲了避免內存泄漏，應確保爲輸出緩衝區指定合適的大小。個人方法是先使cbMultiByte爲0調用WideCharToMultiByte一次以得到所需緩衝區大小，爲緩衝區分配空間，而後再次調用WideCharToMultiByte填充緩衝區，詳見下面的代碼。另外，從Unicode UTF16向非Unicode字符集轉換可能會致使數據丟失，由於該字符集可能沒法找到表示特定Unicode數據的字符。

wchar_t* pwszUnicode = "Holle, word! 你好，中國！ ";
int iSize;
char* pszMultiByte;

iSize = WideCharToMultiByte(CP_ACP, 0, pwszUnicode, -1, NULL, 0, NULL, NULL);
pszMultiByte = (char*)malloc((iSize+1)/**sizeof(char)*/);
WideCharToMultiByte(CP_ACP, 0, pwszUnicode, -1, pszMultiByte, iSize, NULL, NULL);

第二個是多字節字符到寬字符轉換函數，函數原型以下：
int MultiByteToWideChar(
UINT CodePage,
DWORD dwFlags,
LPCSTR lpMultiByteStr,
int cbMultiByte,
LPWSTR lpWideCharStr,
int cchWideChar
);

此函數把多字節字符串轉換成寬字符串(Unicode)，待轉換的字符串並不必定是多字節的。
此函數的參數，返回值及注意事項參見上面函數WideCharToMultiByte的說明，這裏只對dwFlags作簡單解釋。
dwFlags：指定是否轉換成預製字符或合成的寬字符，對控制字符是否使用像形文字，以及怎樣處理無效字符。
MB_PRECOMPOSED 老是使用預製字符，即有單個預製字符時，就不會使用分解的基字符和不佔空間字符。此爲函數的默認選項，不能和MB_COMPOSITE合用 MB_COMPOSITE 老是使用分解字符，即老是使用基字符+不佔空間字符的方式
MB_ERR_INVALID_CHARS 設置此選項，函數遇到非法字符就失敗並返回錯誤碼ERROR_NO_UNICODE_TRANSLATION，不然丟棄非法字符
MB_USEGLYPHCHARS 使用像形字符代替控制字符
對於下列代碼頁，dwFlags必須爲0，不然函數返回錯誤碼ERROR_INVALID_FLAGS。
50220 50221 50222 50225 50227 50229 52936 54936 57002到57011 65000(UTF7) 42(Symbol)
對於UTF8，dwFlags必須爲0或MB_ERR_INVALID_CHARS，不然函數都將失敗並返回錯誤碼 ERROR_INVALID_FLAGS。
如下函數我沒用過，只簡要說明之。
int GetTextCharset( HDC hdc );
此函數獲取當前選進的設備描述表的字符集，等同於GetTextCharsetInfo(hdc, NULL, 0)。
返回值：成功返回字符集標識，失敗返回DEFAULT_CHARSET。

unicode相關函數參考：http://blog.sina.com.cn/s/blog_61ce33b301014zj1.html