Java讀取流數據遇到BOM首字符時的處理

時間 2019-11-12

標籤 java 讀取數據遇到 bom 字符處理欄目 Java 简体版

原文原文鏈接

項目中經過 InputStream 讀取文本文件數據時常常會遇到讀入的字符流中含有特殊首字符的狀況。這個標識在 Java 讀取文件的時候，不會被去掉，並且 String.trim() 也沒法刪除，致使讀入的數據比預期的長度大1，此時的特殊首字符有可能就是系統保存文本文件時添加的 BOM 標識。編輯器

BOM 字符是什麼？

BOM 即 Byte Order Mark，是 Unicode 規範中推薦的標記字節順序的方法。好比說對於 UTF-16，若是接收者收到的 BOM 是 \uFEFF，代表這個字節流是 Big-Endian 的；若是收到 \uFFFE，就代表這個字節流是Little-Endian的。在 UTF-8 中不須要 BOM 來代表字節順序，但能夠用其來代表 UTF-8 的編碼規則。BOM的 UTF-8 編碼是 EF BB BF（用 UltraEdit 打開文本並切換到16進制能夠看到）。因此若是接收者收到以 EF BB BF 開頭的字節流，就知道這是 UTF-8 編碼了。編碼

在 Windows 下用文本編輯器建立的文本文件，若是選擇以 UTF-8 等 Unicode 格式保存，會默認在文件頭（第一個字符）都會加入一個不可見的 BOM 標識。code