JavaScript 的內部字符編碼是 UCS-2 仍是 UTF-16

時間 2019-11-07

標籤 javascript 內部字符編碼 ucs 仍是 utf 欄目 JavaScript 简体版

原文原文鏈接

對於 JavaScript 使用的是 UCS-2 仍是 UTF-16 這個問題，我找了好久，沒有發現一個權威的回答，我決定本身研究一下它。這個回答來自於你對 JavaScript 引擎或者對 JavaScript 語言的理解。javascript

1、著名的 BMP（Basic Multilingual Plane）

Unicode 標識符經過一個明確的名字和一個整數來做爲它的碼位(code point).好比，「©️」字符的碼位能夠用「版權標誌」和U+00A9(0xA9，也能夠寫做十進制 169)來表示。html

Unicode 字符分爲 17 組平面，每一個平面擁有 2^16 (65,536)個碼位.有一些碼位沒有分配字符，也有一些碼位被保留，成爲私有的，也有一些碼位是永遠被保留的，做爲無字符的標誌。每個碼位均可以用 16 進制 xy0000 到 xyFFFF 來表示，這裏的 xy 是表示一個 16 進制的值，從 00 到 10。java

這第一個位置(當 xy 是 00 的時候)被稱爲 BMP （基本多文種平面, Basic Multilingual Plane）。它包含了最經常使用的碼位從 U+0000 到 U+FFFF。git

這裏須要補充一點額外的平面知識，以及術語的表格。github

平面	始末字符值	中文名稱	英文名稱
0號平面	U+0000 - U+FFFF	基本多文種平面	BMP
1號平面	U+10000 - U+1FFFF	多文種補充平面	SMP
2號平面	U+20000 - U+2FFFF	表意文字補充平面	SIP
3號平面	U+30000 - U+3FFFF	表意文字第三平面	TIP
4～13號平面	U+40000 - U+DFFFF	（還沒有使用）
14號平面	U+E0000 - U+EFFFF	特別用途補充平面	SSP
15號平面	U+F0000 - U+FFFFF	保留做爲私人使用區（A區）	PUA-A
16號平面	U+100000 - U+10FFFF	保留做爲私人使用區（B區）	PUA-B

引用自：wikipedia正則表達式

其他 16號平面（U+100000 到 U+10FFFF）稱爲補充的平面。這裏我將不討論它；只須要記住兩個概念：BMP 字符和非 BMP 字符，後者也被稱爲補充字符。算法

2、UCS-2 和 UTF-16 之間的不一樣

UCS-2 和 UTF-16 都是 Unicode 的字符編碼方式。瀏覽器

UCS-2（2個字節的通用字符集）是一種固定長度的編碼格式，只須要使用編碼爲 16 字節編碼單元來表示碼位。這樣的表示結果將和 UTF-16 在 0 到 0xFFFF (BMP)範圍內大多數的結果同樣。工具

UTF-16（16 位 Unicode 轉換格式）是對 UCS-2 的一個擴展，它容許表示比 BMP 範圍內更多的字符。它是一種可變長度格式，它的每一個碼位可以使用 1 位或者 2 位 16字節編碼單元來表示。這種方式可以編碼的碼位在 0 到 0x10FFFF 之間。ui

好比，在 UCS-2 和 UTF-16 中，對於 BMP 字符 U+00A9 版權標誌（©️）都能被編碼爲：0x00A9。

這裏補充一下 UCS-二、UCS-四、BMP

CPU 處理多字節數的方式分爲：「大尾」（big endian）和「小尾」（little endian），簡單的理解就是一個 Unicode 編碼，好比 6C49，寫到文件裏面 6C 49 或者 49 6C，兩種方式，前者就叫「大尾」，後者就叫「小尾」。
UCS 能夠分爲兩種格式：UCS-2 和 UCS-4。UCS-2 使用兩個字節編碼，UCS-4 使用4個字節（實際只有 31 位，最高位必須是 0）編碼。
轉換關係：UCS-4 中高兩個字節爲 0 的碼位稱爲 BMP；UCS-4 的 BMP 去掉前面兩個零字節就獲得 UCS-2；UCS-2 加上兩個零字節就獲得 UCS-4 中的 BMP。

3、代理對（Surrogate pairs）

對於 BMP 以外的字符，好比 U+1D306 四條線居中（其實很差翻譯：tetragram for centre，?），只能使用 UTF-16 中兩個 16 字節來編碼：0xD834 0XDF06。這種就被稱爲代理對。值得注意的是一個代理對只表明一個單字符。

補充一下代理對的概念

實際上就是指上面的一個 UTF-16 編碼，使用 2 個 16 字節來編碼。
那是由於一個 UTF-16 編碼不夠，而後就應該使用 2 個 UTF-16 編碼來表示更多的字符。而後這樣就會出現：以前 2 個字節的空間表示一個字符，就會變成 4 個字節的空間。因此就規定只有必定範圍內使用 2 個 UTF-16 編碼來表示一個字符，這樣的方式就叫代理對，其他的依然使用 2 個字節來表示。

代理對中的第一個字符單元老是在 0xD800 到 0xDBFF 之間，稱爲高位代理或者頂部代理（high surrogate or lead surrogate，暫時這樣，查到專業術語再翻譯）。第二個字符單元老是處於 0xDC00 到 0xDFFF 之間，稱爲低位代理或者尾部代理（low surrogate or trail surrogate）。

UCS-2 是缺少對代理對的支持的，因此要表示以前的字符須要使用 2 個分隔的字符。

4、碼位（code points）和代理對（surrogate pairs）之間的轉換

Section 3.7 of The Unicode Standard 3.0(pdf) 中定義了一個轉換算法。

假設：一個碼位 C 大於 0xFFFF 的編碼使用代理對 <H, L> 來表示的公式爲：

H = Math.floor((C - 0x10000) / 0x400) + 0xD800
L = (C - 0x10000) % 0x400 + 0xDC00

轉換公式變換後，好比從代理對 <H, L> 轉換成一個 Unicode 碼位 C，可使用公式：

C = (H - 0xD800) * 0x400 + L - 0xDC00 + 0x10000

5、Ok，那麼關於 JavaScript 的編碼問題呢?

在 ECMAScript 中定義來怎樣解釋字符的問題.

在 level 3 或者更高等級的實現中，遵循國際標準，與 Unicode 3.0 標準或者更新的標準，以及 ISO/IEC 10646-1，和 UCS-2 或者 UTF-16 做爲編碼格式。若是採用的 ISO/IEC 10646-1 本身未被指定，它被認定爲 BMP 的本身，集合 300（這裏沒懂）。若是沒有采用其它的編碼格式，那麼將按照 UTF-16 進行編碼。

換句話說，JavaScript 引擎是容許使用 UCS-2 或者 UTF-16 進行編碼的。

而後按照 specific parts 規定，認爲引擎裏面的編碼須要一些 UTF-16 的知識。

固然，內部引擎對於大多數 JavaScript 開發者來講沒有實際影響。對於更多有趣的發現JavaScript 是如何考慮字符的中，有一段：

儘管在本文檔的其它部分中，表示字符單元和文字字符將使用 16 位的無符號值，用來表示單個 16 位文本單元。Unicode 字符將使用抽象的語言或印刷單元（可超過16位，所以能夠由多個代碼單元）來表示。碼位能夠用 Unicode 標準值來表示。一個組合字符序列的成分能夠有個別「Unicode 字符」，即便一個用戶可能會認爲整個序列是單個字符。

可能須要從新翻譯，原文

Throughout the rest of this document, the phrase code unit and the word character will be used to refer to a 16-bit unsigned value used to represent a single 16-bit unit of text.

The phrase Unicode character will be used to refer to the abstract linguistic or typographical unit represented by a single Unicode scalar value (which may be longer than 16 bits and thus may be represented by more than one code unit).
The phrase code point refers to such a Unicode scalar value.
Unicode character only refers to entities represented by single Unicode scalar values: the components of a combining character sequence are still individual 「Unicode characters」, even though a user might think of the whole sequence as a single character.

JavaScript 使用單獨字符來處理字符單元，而後人們一般認爲是一組 Unicode 字符。當使用 BMP 範圍外 Unicode 字符的時候，這樣會有一些很差的結果。好比代理對使用 2 個字符單元組成：'?'.length == 2，即便這裏是只有一個 Unicode 字符。若是是字符，代理對將暴露一部分：'?' == '\uD834\uDF06'。

在這裏你想到了什麼呢？對於這種方式，至少是 UCS-2 的替代方式（不一樣的地方是，UCS-2 不容許有代理字符，而後 JavaScript 字符串是這樣作的）。

你能夠認爲它像 UTF-16 同樣在工做，特別是分紅兩部分的方式是被容許的，代理的這種錯誤排序是被容許的，代理被暴露成了分離的字符。我認爲你將更容易的理解成這種行爲叫「UCS-2 的代理方式」(UCS-2 with surrogates，很差翻譯，也能夠理解成伴隨着代理的 UCS-2)。

相似 UCS-2 的行爲對整個語言更有影響，好比補充字符範圍的正則表達式比那些支持 UTF-16 的語言要更難寫。

代理對只是爲了顯示在瀏覽器中（layout 的時候），對單個 Unicode 字符的從新組合。這發生在 JavaScript 引擎的影響範圍以外。爲了證實這個，你能在 document.write() 的時候分開寫一個高位代理和地位代理字符.

document.write('\uD834');
document.write('\uDF06');

在結束後也將被渲染成一個圖案：?。

6、結論

JavaScript 引擎內部是自由的使用 UCS-2 或者 UTF-16。我所知道的大多數引擎使用的是 UTF-16，不管它們使用什麼方式實現，它只是一個具體的實現，這不將影響到語言的特性。

而後對於 ECMAScript/JavaScript 語言自己，實現的效果是經過 UCS-2，而非 UTF-16。

若是你在任什麼時候候須要編碼一個 Unicode 字符, 在必要的時候可以替換成分離的代理，也能夠免費試用個人 JavaScript escaper 工具。

若是你想在一個 JavaScript 字符串中獲取 Unicode 字符的長度，或者建立一個基於 non-BMP Unicode 碼位的字符串，你能使用 Punycode.js 的工具方法，將 UCS-2 字符串轉換成 UTF-16 碼位。

// `String.length` 只是統計因此 Unicode 字符
punycode.ucs2.decode('?').length; // 1
// `String.fromCharCode` 可以讓你直接使用非分離的代理
punycode.ucs2.encode([0x1D306]); // '?'
punycode.ucs2.encode([119558]); // '?'

ECMAScript 6 在字符串中將支持一些新的編碼序列（如今看來已經 ok 了，能夠查看一下資料簡單瞭解下），名爲 Unicode code point escapes 好比：\u{1D306}。另外，它將定義 String.fromCodePoint 和 String#codePointAt，這兩個方法都接受碼位(code points) 而不是字符單元(code units)

感謝：Jonas ‘nlogax’ Westerlund, Andrew ‘bobince’ Clover 以及 Tab Atkins Jr.。他們給了我調查的靈感和幫助我。