C# Encoding UTF-16 ,C#中的UTF16

時間 2019-11-24

標籤 c# encoding utf utf16 欄目 C# 简体版

原文原文鏈接

http://www.cnblogs.com/criedshy/archive/2012/08/07/2625358.htmlhtml

前言

衆所周知計算機只能識別二進制數字，如1010,1001。咱們屏幕所看到的文字，字符都是和二進制轉換後的結果。將咱們的文字按照某種規則轉換二進制存儲在計算機上，這一個過程叫字符編碼，反之就是解碼。目前存在多種字符編碼方式，一組二進制數字根據不一樣的解碼方式，會獲得不一樣的結果，有時甚至會獲得亂碼。這也就是爲何咱們打開網頁時有時會是亂碼，打開一個文本文件有時也是亂碼，而換了一種編碼就恢復正常了。CLR中的全部字符都是16位Unicode來表示的。CLR中的Encoding就是用於字節和字符之間的轉換的。更多字符編碼知識請參考，字符集和字符編碼（Charset & Encoding）網絡

關於Encoding

CLR中的Encoding是在System.Text命名空間下的，它是一個抽象類(abstract class)，因此不能被直接實例化，它主要有以下的派生類：ASCIIEnding，UnicodeEncoding，UTF32Encoding，UTF7Encoding，UTF8Encoding，你能夠根據須要選擇一個合適的Encoding來進行編碼和解碼。你也能夠調用Encoding的靜態屬性ASCII，Unicode，UTF32，UTF7，UTF8，來構造一個Encoding。其中Unicode是表示16位Encoding。調用靜態屬性和實例化一個子類的效果是同樣的，以下代碼。性能

1 Encoding encodingUTF8 = Encoding.UTF8;
2 Encoding encodingUTF8 = new UTF8Encoding(true);

如下是這些類型的一些簡單描述：編碼

ASCII編碼 將16位字符編碼成ASCII碼，只能轉換值小於Ox0080的16字符，而且被轉換成單字節，就是說一個字符對應一個字節。當字符都在ASCII範圍(0X00~0X7F)內時，能夠用這種編碼，它的速度很是快，適合於英美地區的字符。這種編碼很是有限，漢字會被轉換成亂碼。在CLR對應ASCIIEndoing。spa

UTF-16 每一個字符編碼成2個字節，它不會對字符產生任何影響，也不會涉及到壓縮處理，性能很是好，由於CLR中的字符也是16位的Unicode。在CLR中對應UnicodeEncoding。代理

UTF-32 使用4個字節編碼成一個字符。從內存角度上講，它並非一種高效能的編碼方案，由於第個字符都是4個字節，特別佔內存，因此不多用來作文件和網絡流的編碼解碼。在CLR中對應UTF32Encoding。code

UTF-8 值在Ox0080之下的字符壓縮成一個字符，也就是ASCII碼;值在0X0080---0X07FF之間的字符都轉換成2個字符，適合用於歐洲和中東地區。0X0800以上被轉換成3個字符，適合於東亞地區的字符。代理項被轉換成4個字節。所以，它是一種很是流行的編碼，適用於互聯網。它在處理0X0800以上的字符效率很差UTF-16。在CLR中對應UTF8Encoding。htm

UTF-7 這咱編碼一般用於舊的系統，那時的系統是用7位值表示。目前已經被Unicode協淘汰。在CLR中對應UTF7Encoding。對象

從性能角度上來說，若是你的代碼須要在多處調用一個Encoding，微軟建議你使用靜態成員的方式構造一個Encoding對象，而不是構造實例。它的內部實現是一個單例模式。blog

public static Encoding UTF8
{
    get
    {
        if (utf8Encoding == null)
        {
            utf8Encoding = new UTF8Encoding(true);
        }
        return utf8Encoding;
    }
}

若是你知道某種編碼的代碼頁(code page)或名字，那麼你能夠調用Encoding的靜態方法GetEncoding(int codepage)，GetEncoding(string name)來構造一個Encoding，好比咱們經常使用的用於顯示簡體中文的gb2312，它的代碼頁是936，咱們就能夠這樣定義：

Encoding encodingGB2312=Encoding.GetEncoding("gb2312");
Encoding encodingGB2312=Encoding.GetEncoding(936);

目前有幾十種文字代碼頁，分別對應於不一樣的國家，不一樣的語言，它們只是對應Unicode字符集裏的相一部分，好比說936，它只是對應於Unicode字符集裏簡體中文的那一部分，若是你想正確的顯示繁體字，那麼就要用中文繁體對應的代碼頁950。具體的代碼頁有哪些能夠參考MSDN或園子裏這篇文章，C#文字代碼頁,文字編碼的代碼頁名稱速查表。

下面代碼能夠返回CLR中全部的Encoding。

            foreach (EncodingInfo eInfo in Encoding.GetEncodings())
            {
                Console.WriteLine("Encoding code page is {0}, encoding name is {1}", eInfo.CodePage, eInfo.Name);
                Console.WriteLine("Encoding dispaly name is {0}", eInfo.DisplayName);
            }

Encoding對象有一個靜態屬性Default，它返回的也是一個Encoding對象，至於返回哪一個語言的Encoding取決於你電腦裏-->控制面板->區域和語言裏面的設置，也就是ANSI。以下圖，我電腦裏設置是Chinses(Simplified, PRC)也就是簡體中文，那麼對應的就是gb2312，因此下面代碼會打印gb2312。若是你的代碼在不止一個國家裏使用，那麼你最好不要Encoding.Default，這樣會形成亂碼，你最好用Encoding.UTF8。

Encoding encoding1 = Encoding.Default;
Console.WriteLine(encoding1.WebName);

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。