【C# 代碼小知識】多此一舉的編碼前綴

時間 2020-02-11

原文原文鏈接

咱們都知道，文件有不一樣的編碼，例如咱們經常使用的中文編碼有：UTF八、GK2312 等。函數

Windows 操做系統中，新建的文件會在起始部分加入幾個字符的前綴，來識別編碼。編碼

例如，新建文本文件，寫入單詞 Hello，另存爲 UTF8。Hello 佔 5 個字節，但文本大小倒是 8 個字節。（win7 系統下仍是這樣的，win10 已經去掉了編碼前綴，因此 win10 下文件大小依然是 5 個字節。看來微軟本身也改變了。）操作系統

咱們用 StreamWriter 來生成文件。code

using (StreamWriter sw = new StreamWriter("a.txt"))
{
    sw.Write("Hello");  // 5 字節
}

using (StreamWriter sw = new StreamWriter("b.txt", false, Encoding.UTF8))
{
    sw.Write("Hello");  // 8 字節
}

詭異的事情發生了，StreamWriter 的默認編碼是 UTF8，都是用的 UTF8 編碼，怎麼文件的大小會不同呢？get

UTF8Encoding 有兩個私有屬性：emitUTF8Identifier 和 isThrowException，初始化時由構造函數傳入。it

emitUTF8Identifier 表示是否添加編碼前綴
isThrowException 表示遇到編碼錯誤時是否報錯

因而可知，是否添加編碼前綴，是能夠控制的。io

Encoding 中 UTF8 定義以下，添加編碼前綴。class

public static Encoding UTF8 {
    get {
        if (utf8Encoding == null) utf8Encoding = new UTF8Encoding(true);
        return utf8Encoding;
    }
}

而 StreamWriter 中使用的默認編碼，emitUTF8Identifier=false：coding

internal static Encoding UTF8NoBOM {
    get { 
        if (_UTF8NoBOM == null) {
            UTF8Encoding noBOM = new UTF8Encoding(false, true);
            _UTF8NoBOM = noBOM;
        }
        return _UTF8NoBOM;
    }
}

這就是開頭的代碼中兩個文件大小不同的緣由了。構造函數

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。