咱們都知道,文件有不一樣的編碼,例如咱們經常使用的中文編碼有:UTF八、GK2312 等。函數
Windows 操做系統中,新建的文件會在起始部分加入幾個字符的前綴,來識別編碼。編碼
例如,新建文本文件,寫入單詞 Hello
,另存爲 UTF8。Hello
佔 5 個字節,但文本大小倒是 8 個字節。(win7 系統下仍是這樣的,win10 已經去掉了編碼前綴,因此 win10 下文件大小依然是 5 個字節。看來微軟本身也改變了。)操作系統
咱們用 StreamWriter
來生成文件。code
using (StreamWriter sw = new StreamWriter("a.txt")) { sw.Write("Hello"); // 5 字節 } using (StreamWriter sw = new StreamWriter("b.txt", false, Encoding.UTF8)) { sw.Write("Hello"); // 8 字節 }
詭異的事情發生了,StreamWriter
的默認編碼是 UTF8,都是用的 UTF8 編碼,怎麼文件的大小會不同呢?get
UTF8Encoding
有兩個私有屬性:emitUTF8Identifier
和 isThrowException
,初始化時由構造函數傳入。it
emitUTF8Identifier
表示是否添加編碼前綴isThrowException
表示遇到編碼錯誤時是否報錯因而可知,是否添加編碼前綴,是能夠控制的。io
Encoding
中 UTF8
定義以下,添加編碼前綴。class
public static Encoding UTF8 { get { if (utf8Encoding == null) utf8Encoding = new UTF8Encoding(true); return utf8Encoding; } }
而 StreamWriter
中使用的默認編碼,emitUTF8Identifier=false
:coding
internal static Encoding UTF8NoBOM { get { if (_UTF8NoBOM == null) { UTF8Encoding noBOM = new UTF8Encoding(false, true); _UTF8NoBOM = noBOM; } return _UTF8NoBOM; } }
這就是開頭的代碼中兩個文件大小不同的緣由了。構造函數