ANSI、Unicode、UTF-八、DBCS等字符集及相關數據類型、函數的區別

UNICODE環境設置
 在安裝Visual Studio時,在選擇VC++時須要加入unicode選項,保證相關的庫文件能夠拷貝到system32下。

 UNICODE編譯設置:
 C/C++, Preprocessor difinitions 去除_MBCS,加_UNICODE,UNICODE
 在ProjectSetting/link/output 中設置Entry爲wWinMainCRTStartup
 反之爲MBCS(ANSI)編譯。

 Unicode :寬字節字符集

 1. 如何取得一個既包含單字節字符又包含雙字節字符的字符串的字符個數?
 能夠調用Microsoft Visual C++的運行期庫包含函數_mbslen來操做多字節(既包括單字節也包括雙字節)字符串。
 調用strlen函數,沒法真正瞭解字符串中究竟有多少字符,它只能告訴你到達結尾的0以前有多少個字節。
 size_t strlen( const char *string );
 size_t wcslen( const wchar_t *string );
 size_t _mbslen( const unsigned char *string );
 size_t _mbstrlen( const char *string );

 2. 如何對DBCS(雙字節字符集)字符串進行操做?
 函數 描述
 PTSTR CharNext ( LPCTSTR ); 返回字符串中下一個字符的地址
 PTSTR CharPrev ( LPCTSTR, LPCTSTR ); 返回字符串中上一個字符的地址
 BOOL IsDBCSLeadByte( BYTE ); 若是該字節是DBCS字符的第一個字節,則返回非0值

 3. 爲什幺要使用Unicode?
 (1) 能夠很容易地在不一樣語言之間進行數據交換。
 (2) 使你可以分配支持全部語言的單個二進制.exe文件或DLL文件。
 (3) 提升應用程序的運行效率。
 Windows 2000是使用Unicode從頭進行開發的,若是調用任何一個Windows函數並給它傳遞一個ANSI字符串,那幺系統首先要將字符串轉換成Unicode,而後將Unicode字符串傳遞給操做系統。若是但願函數返回ANSI字符串,系統就會首先將Unicode字符串轉換成ANSI字符串,而後將結果返回給你的應用程序。進行這些字符串的轉換須要佔用系統的時間和內存。經過從頭開始用Unicode來開發應用程序,就可以使你的應用程序更加有效地運行。
 Windows CE 自己就是使用Unicode的一種操做系統,徹底不支持ANSI Windows函數
 Windows 98 只支持ANSI,只能爲ANSI開發應用程序。
 Microsoft公司將COM從16位Windows轉換成Win32時,公司決定須要字符串的全部COM接口方法都只能接受Unicode字符串。

 4. 如何編寫Unicode源代碼?
 Microsoft公司爲Unicode設計了WindowsAPI,這樣,能夠儘可能減小代碼的影響。實際上,能夠編寫單個源代碼文件,以便使用或者不使用Unicode來對它進行編譯。只須要定義兩個宏(UNICODE和_UNICODE),就能夠修改而後從新編譯該源文件。
 _UNICODE宏用於C運行期頭文件,而UNICODE宏則用於Windows頭文件。當編譯源代碼模塊時,一般必須同時定義這兩個宏。

 5. Windows定義的Unicode數據類型有哪些?
 數據類型 說明
 WCHAR Unicode字符
 PWSTR 指向Unicode字符串的指針
 PCWSTR 指向一個恆定的Unicode字符串的指針
 對應的ANSI數據類型爲CHAR,LPSTR和LPCSTR。
 ANSI/Unicode通用數據類型爲TCHAR,PTSTR,LPCTSTR。

 6. 如何對Unicode進行操做?
 字符集 特性 實例
 ANSI 操做函數以str開頭 strcpy
 Unicode 操做函數以wcs開頭 wcscpy
 MBCS 操做函數以_mbs開頭 _mbscpy
 ANSI/Unicode 操做函數以_tcs開頭 _tcscpy(C運行期庫)
 ANSI/Unicode 操做函數以lstr開頭 lstrcpy(Windows函數)
 全部新的和未過期的函數在Windows2000中都同時擁有ANSI和Unicode兩個版本。ANSI版本函數結尾以A表示;Unicode版本函數結尾以W表示。Windows會以下定義:
 #ifdef UNICODE
 #define CreateWindowEx CreateWindowExW
 #else
 #define CreateWindowEx CreateWindowExA
 #endif // !UNICODE

 7. 如何表示Unicode字符串常量?
 字符集 實例
 ANSI 「string」
 Unicode L「string」
 ANSI/Unicode T(「string」)或_TEXT(「string」)
 if( szError[0] == _TEXT(‘J’) ){ }

 8. 爲什幺應當儘可能使用操做系統函數?
 這將有助於稍稍提升應用程序的運行性能,由於操做系統字符串函數經常被大型應用程序好比操做系統的外殼進程Explorer.exe所使用。因爲這些函數使用得不少,所以,在應用程序運行時,它們可能已經被裝入RAM。
 如:StrCat,StrChr,StrCmp和StrCpy等。

 9. 如何編寫符合ANSI和Unicode的應用程序?
 (1) 將文本串視爲字符數組,而不是chars數組或字節數組。
 (2) 將通用數據類型(如TCHAR和PTSTR)用於文本字符和字符串。
 (3) 將顯式數據類型(如BYTE和PBYTE)用於字節、字節指針和數據緩存。
 (4) 將TEXT宏用於原義字符和字符串。
 (5) 執行全局性替換(例如用PTSTR替換PSTR)。
 (6) 修改字符串運算問題。例如函數一般但願在字符中傳遞一個緩存的大小,而不是字節。這意味着不該該傳遞sizeof(szBuffer),而應該傳遞(sizeof(szBuffer)/sizeof(TCHAR)。另外,若是須要爲字符串分配一個內存塊,而且擁有該字符串中的字符數目,那幺請記住要按字節來分配內存。這就是說,應該調用
 malloc(nCharacters *sizeof(TCHAR)),而不是調用malloc(nCharacters)。

 10. 如何對字符串進行有選擇的比較?
 經過調用CompareString來實現。
 int CompareString(
 LCID Locale, // locale identifier
 DWORD dwCmpFlags, // comparison-style options
 LPCTSTR lpString1, // pointer to first string
 int cchCount1, // size, in bytes or characters, of first string
 LPCTSTR lpString2, // pointer to second string
 int cchCount2 // size, in bytes or characters, of second string
 );
 Locale 本地比較的定義
 LOCALE_USER_DEFAULT
 LOCALE_SYSTEM_DEFAULT

 標誌 含義
 NORM_IGNORECASE 忽略字母的大小寫
 NORM_IGNOREKANATYPE 不區分平假名與片假名字符
 NORM_IGNORENONSPACE 忽略無間隔字符
 NORM_IGNORESYMBOLS 忽略符號
 NORM_IGNOREWIDTH 不區分單字節字符與做爲雙字節字符的同一個字符
 SORT_STRINGSORT 將標點符號做爲普通符號來處理

 11. 如何判斷一個文本文件是ANSI仍是Unicode?
 判斷若是文本文件的開頭兩個字節是0xFF和0xFE,那幺就是Unicode,不然是ANSI。

 12. 如何判斷一段字符串是ANSI仍是Unicode?
 用IsTextUnicode進行判斷。IsTextUnicode使用一系列統計方法和定性方法,以便猜想緩存的內容。因爲這不是一種確切的科學方法,所以 IsTextUnicode有可能返回不正確的結果。

 13. 如何在Unicode與ANSI之間轉換字符串?
 Windows函數MultiByteToWideChar用於將多字節字符串轉換成寬字符串;函數WideCharToMultiByte將寬字符串轉換成等價的多字節字符串。

 14. Unicode和DBCS之間的區別
 Unicode使用(特別在C程序設計語言環境裏)「寬字符集」。「Unicode中的每一個字符都是16位寬而不是8位寬。」在Unicode中,沒有單單使用8位數值的意義存在。相比之下,在「雙位組字符集」中咱們仍然處理8位數值。有些位組自身定義字符,而某些位組則顯示須要和另外一個位組共同定義一個字符。
 處理DBCS字符串很是雜亂,可是處理Unicode文字則像處理有秩序的文字。您也許會高興地知道前128個Unicode字符(16位代碼從0x0000到0x007F)就是ASCII字符,而接下來的128個Unicode字符(代碼從0x0080到0x00FF)是ISO 8859-1對ASCII的擴展。Unicode中不一樣部分的字符都一樣基於現有的標準。這是爲了便於轉換。希臘字母表使用從0x0370到0x03FF的代碼,斯拉夫語使用從0x0400到0x04FF的代碼,美國使用從0x0530到0x058F的代碼,希伯來語使用從0x0590到0x05FF的代碼。中國、日本和韓國的象形文字(總稱爲CJK)佔用了從0x3000到0x9FFF的代碼。Unicode的最大好處是這裏只有一個字符集,沒有一點含糊。

 15.衍生標準
 Unicode是一個標準。UTF-8是其概念上的子集,UTF-8是具體的編碼標準。而UNICODE是全部想達到世界統一編碼標準的標準。UTF-8標準就是Unicode(ISO10646)標準的一種變形方式,
 UTF的全稱是:Unicode/UCS Transformation Format,其實有兩種UTF,一種是UTF-8,一種是UTF-16,
 不過UTF-16使用較少,其對應關係以下:
 在Unicode中編碼爲 0000 - 007F 的 UTF-8 中編碼形式爲: 0xxxxxxx
 在Unicode中編碼爲 0080 - 07FF 的 UTF-8 中編碼形式爲: 110xxxxx 10xxxxxx
 在Unicode中編碼爲 0000 - 007F 的 UTF-8 中編碼形式爲: 1110xxxx 10xxxxxx 10xxxxxx

 是unicode的一個新的編碼標準,其實unicode有過好幾個標準.咱們知道一直以來使用的unicode字符內碼都是16位,它實際上還不能把全世界的全部字符編在一個平面系統,好比中國的藏文等小語種,因此utf-8擴展到了32位,也就是說理論在utf-8中可容納二的三十二次方個字符. UNICODE的思想就是想把全部的字符統一編碼,實現一個統一的標準.big五、gb都是獨立的字符集,這也叫作遠東字符集,把它拿到德文版的WINDOWS上可能將會引發字符編碼的衝突....早期的WINDOWS默認的字符集是ANSI.notepad中輸入的漢字是本地編碼,但在NT/2000內部是能夠直接支持UNICODE的。notepad.exe在WIN95和98中都是ANSI字符,在NT中則是UNICODE.ANSI和UNICODE能夠方便的實現對應映射,也就是轉換   ASCII是8位範圍內的字符集,對於範圍以外的字符如漢字它是沒法表達的。unicode是16位範圍內的字符集,對於不一樣地區的字符分區分配,unicode是多個IT巨頭共同制定的字符編碼標準。若是在unicode環境下好比WINDOWS NT上,一個字符佔兩字節16位,而在ANSI環境下如WINDOWS98下一個字符佔一個字節8位.Unicode字符是16位寬,最多容許65,535字符,數據類型被稱爲WCHAR。
 對於已有的ANSI字符,unicode簡單的將其擴展爲16位:好比ANSI"A"=0x43,則對應的UNICODE爲
 "A"= 0x0043
 而ASCII用七存放128個字符,ASCII是一個真正的美國標準,因此它不能知足其餘國家的須要,例如斯拉夫語的字母和漢字因而出現了Windows ANSI字符集,是一種擴展的ASCII碼,用8位存放字符,低128位仍然存放原來的ASCII碼,
 而高128位加入了希臘字母等
 if def UNICODE
 TCHAR = wchar
 else
 TCHAR = char
 你須要在Project/Settings/C/C++/Preprocesser definitions中添加UNICODE和_UNICODE
 UINCODE,_UNICODE都要定義。不定義_UNICODE的話,用SetText(HWND,LPCTSTR),將被解釋爲SetTextA(HWND,LPTSTR),這時API將把你給的Unicode字符串看做ANSI字符串,顯示亂碼。由於windows API是已經編譯好存在於dll中的,因爲無論UNICODE仍是ANSI字符串,都被看做一段buffer,如"0B A3 00 35 24 3C 00 00"若是按ANSI讀,由於ANSI字串是以'/0'結束的,因此只能讀到兩字節"0B A3 /0",若是按UNICODE讀,將完整的讀到'/0/0'結束。
 因爲UNICODE沒有額外的指示位,因此係統必須知道你提供的字串是哪一種格式。此外,UNICODE好象是ANSI C++規定的,_UNICODE是windows SDK提供的。若是不編寫windows程序,能夠只定義UNICODE。



 開發過程:
 圍繞着文件讀寫、字符串處理展開。文件主要有兩種:.txt和.ini文件
 在unicode和非unicode環境下字符串作不一樣處理的,那麼須要參考以上9,10兩條,以適應不一樣環境得字符串處理要求。
 對文件讀寫也同樣。只要調用相關接口函數時,參數中的字符串前都加上_TEXT等相關宏。若是寫成的那個文件須要是unicode格式保存的,那麼在建立文件時須要加入一個字節頭。
 CFile file;
 WCHAR szwBuffer[128];
 WCHAR *pszUnicode = L"Unicode string/n"; // unicode string
 CHAR *pszAnsi = "Ansi string/n"; // ansi string
 WORD wSignature = 0xFEFF;
 file.Open(TEXT("Test.txt"), CFile::modeCreate|CFile::modeWrite);
 file.Write(&wSignature, 2);
 file.Write(pszUnicode, lstrlenW(pszUnicode) * sizeof(WCHAR));
 // explicitly use lstrlenW function
 MultiByteToWideChar(CP_ACP, 0, pszAnsi, -1, szwBuffer, 128);
 file.Write(szwBuffer, lstrlenW(szwBuffer) * sizeof(WCHAR));
 file.Close();
 //以上這段代碼在unicode和非unicode環境下都有效。這裏顯式的指明用Unicode來進行操做。
 在非unicode環境下,缺省調用的都是ANSI格式的字符串,此時TCHAR轉換爲CHAR類型的,除非顯式定義WCHAR。因此在這個環境下,若是讀取unicode文件,那麼首先須要移動2個字節,而後讀取得字符串須要用MultiByteToWideChar來轉換,轉換後字符串信息才表明unicode數據。
 在unicode環境下,缺省調用得都是unicode格式得字符串,也就是寬字符,此時TCHAR轉換爲WCHAR,相關得API函數也都調用寬字符類型的函數。此時讀取unicode文件也和上面同樣,可是讀取得數據是WCHAR的,若是要轉換成ANSI格式,須要調用WideCharToMultiByte。若是讀取ANSI的,則不用移動兩個字節,直接讀取而後視須要轉換便可。

 某些語言(如韓語)必須在unicode環境下才能顯示,這種狀況下,在非unicode環境下開發,就算用字符串函數轉換也不能達到顯示文字的目的,由於此時調用得API函數是用ANSI的(雖然底層都是用UNICODE處理可是處理結果是按照程序員調用的API來顯示的)。因此必須用unicode來開發。程序員

相關文章
相關標籤/搜索