▪字節順序標記（ByteOrderMark）

時間 2019-11-09

標籤字節順序標記 byteordermark 简体版

原文原文鏈接

BOM —— Byte Order Mark，中文名譯做「字節順序標記」。在這裏找到一段關於 BOM 的說明：php

在UCS 編碼中有一個叫作 "Zero Width No-Break Space" ，中文譯名做「零寬無間斷間隔」的字符，它的編碼是 FEFF。而 FFFE 在 UCS 中是不存在的字符，因此不該該出如今實際傳輸中。UCS 規範建議咱們在傳輸字節流前，先傳輸字符 "Zero Width No-Break Space"。這樣若是接收者收到 FEFF，就代表這個字節流是 Big-Endian 的；若是收到FFFE，就代表這個字節流是 Little- Endian 的。所以字符 "Zero Width No-Break Space" （「零寬無間斷間隔」）又被稱做 BOM。html

UTF-8 不須要 BOM 來代表字節順序，但能夠用 BOM 來代表編碼方式。字符 "Zero Width No-Break Space" 的 UTF-8 編碼是 EF BB BF。因此若是接收者收到以 EF BB BF 開頭的字節流，就知道這是 UTF-8編碼了。Windows 就是使用 BOM 來標記文本文件的編碼方式的。瀏覽器

字符U+FEFF若是出如今字節流的開頭，則用來標識該字節流的字節序，是高位在前仍是低位在前。若是它出如今字節流的中間，則表達零寬度非換行空格的意義，用戶看起來就是一個空格。從Unicode3.2開始，U+FEFF只能出如今字節流的開頭，只能用於標識字節序，就如它的名稱——字節序標記——所表示的同樣；除此之外的用法已被捨棄。取而代之的是，使用U+2060來表達零寬度無斷空白。session

相似WINDOWS自帶的記事本等軟件，在保存一個以UTF-8編碼的文件時，會在文件開始的地方插入三個不可見的字符（0xEF 0xBB 0xBF，即BOM）。它是一串隱藏的字符，用於讓記事本等編輯器識別這個文件是否以UTF-8編碼。對於通常的文件，這樣並不會產生什麼麻煩。但對於 PHP來講，BOM是個大麻煩。編輯器

PHP並不會忽略BOM，因此在讀取、包含或者引用這些文件時，會把BOM做爲該文件開頭正文的一部分。根據嵌入式語言的特色，這串字符將被直接執行（顯示）出來。由此形成即便頁面的 top padding 設置爲0，也沒法讓整個網頁緊貼瀏覽器頂部，由於在html一開頭有這3個字符呢！函數

1 不一樣編碼的字節順序標記的表示編輯

編碼工具	表示 (十六進制)編碼	表示 (十進制)spa
UTF-8設計	EF BB BF	239 187 191
UTF-16（大端序）	FE FF	254 255
UTF-16（小端序）	FF FE	255 254
UTF-32（大端序）	00 00 FE FF	0 0 254 255
UTF-32（小端序）	FF FE 00 00	255 254 0 0
UTF-7	2B 2F 76和如下的一個字節：[ 38 \| 39 \| 2B \| 2F ]	43 47 118和如下的一個字節：[ 56 \| 57 \| 43 \| 47 ]
en:UTF-1	F7 64 4C	247 100 76
en:UTF-EBCDIC	DD 73 66 73	221 115 102 115
en:Standard Compression Scheme for Unicode	0E FE FF	14 254 255
en:BOCU-1	FB EE 28及可能跟隨着FF	251 238 40及可能跟隨着255
GB-18030	84 31 95 33	132 49 149 51

代碼的時候看到這樣一段
$template_content = str_replace(」/xEF/xBB/xBF」, 」, $template_content);
不知道是何做用,通過一番查找資料,終於解開了這個疑問
資料以下:

在window下面用記事本編輯文件的時候，若是保存爲UNICODE或UTF-8，分別會在文件的開頭加上兩個字節「/xFF/xFE」和三個字節「/xEF/xBB/xBF」。在讀取的時候就可能會遇到問題，可是不一樣的環境對這幾個多於字符的處理也不同。(其餘的文本編輯工具也存在這個問題, 可是能夠選擇去除bom,如editplus的設置:參數選擇->文件->utf-8, 選擇老是刪除簽名)若是前面三個字符「/xef/xbb/xbf」則保存格式是utf-8若是前兩個字符是「/xff/xfe」則保存格式是UnicodeUnicode規範中有一個BOM的概念。BOM——Byte Order Mark，就是字節序標記。在這裏找到一段關於BOM的說明：在UCS 編碼中有一個叫作」ZERO WIDTH NO-BREAK SPACE」的字符，它的編碼是FEFF。而FFFE在UCS中是不存在的字符，因此不該該出如今實際傳輸中。UCS規範建議咱們在傳輸字節流前，先傳輸字符」ZERO WIDTH NO-BREAK SPACE」。這樣若是接收者收到FEFF，就代表這個字節流是Big-Endian的；若是收到FFFE，就代表這個字節流是Little- Endian的。所以字符」ZERO WIDTH NO-BREAK SPACE」又被稱做BOM。UTF-8不須要BOM來代表字節順序，但可以用BOM來代表編碼方式。字符」ZERO WIDTH NO-BREAK SPACE」的UTF-8編碼是EF BB BF。因此若是接收者收到以EF BB BF開頭的字節流，就知道這是UTF-8編碼了。Windows就是使用BOM來標記文本文件的編碼方式的。容易致使header session_star ob_start的問題,utf－8編碼的文件中，BOM佔3個字節，因爲php設計時沒有考慮BOM的問題，這三個字節會直接輸出，若是這時在程序裏調用了session函數，就會出問題了附：文件應該使用 Unicode (UTF-8) 編碼保存。同時不要使用字節序標記(BOM) 。與 UTF-16 和 UTF-32 不一樣，UTF-8 編碼的文件不須要指明字節序，並且字節序標記(BOM) 在PHP中會產生預期以外的輸出，阻止了應用程序設置它本身的頭信息。應該使用Unix 格式的行結束符(LF)。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

▪字節順序標記（ByteOrderMark）

1不一樣編碼的字節順序標記的表示編輯

1 不一樣編碼的字節順序標記的表示編輯