爲何會精度丟失？教你看懂 IEEE-754！

時間 2020-09-26

標籤爲何精度丟失看懂 ieee 简体版

原文原文鏈接

原文連接：https://ssshooter.com/2020-09...javascript

上圖來自維基百科。html

IEEE-754 標準是一個浮點數標準，存在 3二、6四、128 bit 三種格式（上面兩幅圖分別是 32 bit 和 64 bit 的狀況，結構是一致的），JavaScript 使用的是 64 位，也就是常說的「雙精度」，本文將以 64 位舉例講解 IEEE-754 標準。java

從圖中可知，IEEE-754 標準將 64 位分爲三部分：程序員

sign，1 bit 的標識位，0 爲正數，1 爲負數
exponent，指數，11 bit
fraction，小數部分，52 bit

爲了舉例方便，咱們使用下面這串數字介紹 IEEE-754 標準ssh

0100000001101101001000000000000000000000000000000000000000000000spa

很少很多 64 位，不信的數一數 .net

sign

第 63 位（也是從左到右看的第一個數），在舉例中，sign（符號）的值是 0，也就表明着這是一個正數。code

fraction

之因此說 0 到 51 位（共 52 位）是 「fraction（小數）」，是由於這段數字在處理時會置於 1.（會有特例，後面會說）以後。orm

在舉例中，屬於 fraction 的 52 位是：htm

1101001000000000000000000000000000000000000000000000

這 52 位數字在本文中簡稱爲 f（f 代指 fraction），加上前面提到須要添加的 1.，所謂的 1.f 是這樣的：

1.1101001000000000000000000000000000000000000000000000

若是你問爲何要塞個 1 在前面，我也沒查，總之就是這麼規定的，這確實是名副其實的「小數」

可是拿到這一長串 1.f 要怎麼用呢？就得結合 exponent 部分。

exponent

爲更清晰地說明 exponent（指數）從二進制到十進制的轉換，借用此文的一個「表格」：

%00000000000 0 → −1023 (lowest number)

%01111111111 1023 → 0

%11111111111 2047 → 1024 (highest number)

%10000000000 1024 → 1

%01111111110 1022 → −1

請特別注意，01111111111 表明的是 0，往上是正數，往下是負數

抽離出上面例子的 52 到 62 位（共 11 位），獲得：10000000110，再轉爲十進制數 1030，由於 1023 纔是 0，因此減去 1023 算出真正結果，便是 7。

要使用這個 exponent（指數，下面用字母 e 指代指數），咱們將上面獲得的 1.f 乘上 2 的 7 次方(爲了節省位置，省略掉後面的 0)：

1.f × 2^e−1023 = 1.1101001 × 2⁷ = 11101001

（注意了，這是二！進！制！類比成十進制就是相似：1.3828171 × 10⁷ = 13828171）

這就是「浮點數」的所謂浮點（Floating Point），小數點的位置能夠隨着指數的值左右漂移，這樣能夠更精細地表示一個數字；

與之相對的是定點（Fixed Point），例如一個數最大是 1111111111.1111111111，小數點永遠固定在中間，這時候要表示絕對值小於或大於 1111111111.1111111111 的數就變得徹底沒有辦法了。

在組合「fraction（小數）」和「exponent（指數）」獲得 11101001 後，轉爲十進制便可，再加上沒什麼好解釋的正負號 sign（標誌位）（0 即爲正數）

因此舉例的

0100000001101101001000000000000000000000000000000000000000000000

其實就是以 IEEE-754 標準儲存的 233

特殊狀況

當 exponent（指數）爲 -1023（也就是最小值，二進制表示爲 7 個 0）時，是一種名爲 denormalized 的特殊狀況。

其表現爲當前值的計算公式改成：

0.f × 2⁻¹⁰²²

這就是 f 前不爲 1 的特殊狀況，這種狀況能夠用於表示極小的數字

總結

這位大佬的總結過於精闢：

表達式	取值
(−1)^s × %1.f × 2^e−1023	normalized, 0 < e < 2047
(−1)^s × %0.f × 2^e−1022	denormalized, e = 0, f > 0
(−1)^s × 0	e = 0, f = 0
NaN	e = 2047, f > 0
(−1)^s × ∞ (infinity)	e = 2047, f = 0

第一行正常狀況，第二行是上面說的 0.f denormalized，第三行其實就是全 0。

第四第五行就是 e 的 11 位爲全 1，若是 f 大於 0 就是 NaN，f 等於 0 就是無限大。

動手轉換 IEEE-754

使用上面總結的公式，將 IEEE-754 算回十進制應該不難，可是本身動手，如何經過十進制數算出 IEEE-754 呢？

咱們整一個看起來還挺簡單的數字：-5432.1，再貼一下 64 bit 的組成圖，省得你們翻來翻去

step1

看到負號，毫無疑問地，sign 就是 1 了，咱們得到了第一塊拼圖，s = 1。

step2

第二步，將 432.1 轉爲二進制。

正數部分轉換，直到結果爲 0 時中止：

計算	結果	餘數
432/2	216	0
216/2	108	0
108/2	54	0
54/2	27	0
27/2	13	1
13/2	6	1
6/2	3	0
3/2	1	1
1/2	0	1

由下往上寫出結果：110110000

負數部分轉換，直到結果爲 0 時中止：

計算	結果	個位
0.1*2	0.2	0
0.2*2	0.4	0
0.4*2	0.8	0
0.8*2	1.6	1
0.6*2	1.2	1
0.2*2	0.4	0
0.4*2	0.8	0
0.8*2	1.6	1
0.6*2	1.2	1
0.2*2	0.4	0
0.4*2	0.8	0
0.8*2	1.6	1
0.6*2	1.2	1

沒完沒了，聰明的你們應該看出來了，這已經進入了無限循環狀態。

就像十進制的三分一等於 0.33333333……，二進制的「十」分一等於 0.00011001100110011……，都是無限循環小數。

接着組合整數與小數部分：110110000.0[0011]

step3

轉換爲 1.f × 2^e−1023 的格式

1.1011000000011001100110011001100110011001100110011010 × 2⁸

用無限循環小數填滿 f 的 52 位，

f = 1011000000011001100110011001100110011001100110011010

8 = e−1023，則 e 爲 1031，轉爲二進制，

e = 10000000111

step4

拼圖都湊齊了，組合在一塊兒吧！s + e + f！

1100000001111011000000011001100110011001100110011001100110011010

這就是 IEEE-754 雙精度浮點數 -5432.1 的真身。

爲何算不許

程序員們由於精度丟失苦不堪言，這個問題不只僅發生在 JavaScript 裏，只是可憐的 JavaScript 奇怪的設定更多，你們就常常把 0.1 + 0.2 的問題綁定到 JavaScript 身上，其實 Java 等使用 IEEE-754 標準的語言都會有這個問題（然而 Java 還有 BigDecimal，JavaScript 只能哭哭）。

那麼到底爲何會算不許呢？

狀況一

先說最多見的一種狀況：

0.1 + 0.2 // 0.30000000000000004

1 - 0.9 // 0.09999999999999998

0.0532 * 100 // 5.319999999999999

曾經我也覺得乘 100 變成整數再進行加減計算就不會丟精度，但事實是，乘法自己算出來的數就已經走樣了。

說回產生的緣由吧，其實跟上面算 0.1 同樣，就是由於除不盡。

可是爲何？！明明直接打印出來他就是正常的 0.1 啊！爲何 1 - 0.9 出來的 0.1 就不是了 0.1 了！

下面我只是膚淺地推測一下：

console.log((0.1).toFixed(30))

// 輸出 '0.100000000000000005551115123126'

console.log((1.1 - 1).toFixed(30))

// 輸出 '0.100000000000000088817841970013'

經過 toFixed 咱們能夠看到更精確的 0.1 究竟是個什麼數字，並且也能清楚看到 0.1 和 1.1 - 1 出來的根本不是同一個數字，儘管在十進制看來這就是 0.1，可是在二進制看來這就是除不盡的數，因此進行計算後就會有輕微的不一樣。

那到底什麼狀況下的「0.1」纔會被當成「0.1」呢？答案是：

小於 0.1000000000000000124（等等等等）
大於 0.0999999999999999987（等等等等）

至於要準確知道 IEEE-754 怎麼進行「估值」，這裏或許能找到答案，好奇寶寶們能夠鑽研一下

總之，由於除不盡，再加上計算中帶來的偏差，超過必定的值，某個數就變成另外一個數了。

狀況二

第二種算不許的狀況就是由於實在太大了。

咱們已知雙精度浮點數有 52 位小數，算上前面的 1，那麼最大且能準確表示的整數，就是 Math.pow(2,53)。

console.log(Math.pow(2, 53))

// 輸出 9007199254740992

console.log(Math.pow(2, 53) + 1)

// 輸出 9007199254740992

console.log(Math.pow(2, 53) + 2)

// 輸出 9007199254740994

爲何 +2 又準了呢？，由於在這個範圍內 2 的倍數仍能夠被準確表示。再往上，當數字到達 Math.pow(2,54) 以後，就只能準確表示 4 的倍數了，55 次方是 8 的倍數，以此類推。

console.log(Math.pow(2, 54))

// 輸出 18014398509481984

console.log(Math.pow(2, 53) + 2)

// 輸出 18014398509481984

console.log(Math.pow(2, 53) + 4)

// 輸出 18014398509481988

因此浮點數雖然能夠表示極大和極小的數字，可是不那麼準確，不過，也總比定點數徹底無法表示要好一點吧。