float浮點數的二進制存儲方式及轉換

時間 2019-12-05

標籤 float 浮點數二進制存儲方式轉換欄目 CSS 简体版

原文原文鏈接

int和float都是4字節32位表示形式。爲何float的範圍大於int？算法

float精度爲6～7位。1.66*10^10的數字結果並非166 0000 0000 指數越大，偏差越大。c#

這些問題，都是浮點數的存儲方式形成的。 spa

float和double在存儲方式上都是聽從IEEE的規範的，code

float聽從的是IEEE R32.24 ,而double 聽從的是R64.53。orm

不管是單精度仍是雙精度在存儲中都分爲三個部分：blog

符號位(Sign) : 0表明正，1表明爲負ip
指數位（Exponent）:用於存儲科學計數法中的指數數據，而且採用移位存儲內存
尾數部分（Mantissa）：尾數部分get

其中float的存儲方式以下圖所示：it

而雙精度的存儲方式爲:

將一個float型轉化爲內存存儲格式的步驟爲：

     （1）先將這個實數的絕對值化爲二進制格式。
     （2）將這個二進制格式實數的小數點左移或右移n位，直到小數點移動到第一個有效數字的右邊。
     （3）從小數點右邊第一位開始數出二十三位數字放入第22到第0位。
     （4）若是實數是正的，則在第31位放入「0」，不然放入「1」。
     （5）若是n 是左移獲得的，說明指數是正的，第30位放入「1」。若是n是右移獲得的或n=0，則第30位放入「0」。
     （6）若是n是左移獲得的，則將n減去1後化爲二進制，並在左邊加「0」補足七位，放入第29到第23位。若是n是右移獲得的或n=0，則將n化爲二進制後在左邊加「0」補足七位，再各位求反，再放入第29到第23位。

R32.24和R64.53的存儲方式都是用科學計數法來存儲數據的，好比8.25用十進制的科學計數法表示就爲:8.25*,而120.5能夠表示爲:1.205*,計算機根本不認識十進制的數據，他只認識0，1，因此在計算機存儲中，首先要將上面的數更改成二進制的科學計數法表示，8.25用二進制表示可表示爲1000.01,120.5用二進制表示爲：1110110.1用二進制的科學計數法表示1000.01能夠表示爲1.0001*,1110110.1能夠表示爲1.1101101*,

任何一個數都的科學計數法表示都爲1.xxx*,尾數部分就能夠表示爲xxxx,第一位都是1嘛，幹嗎還要表示呀？能夠將小數點前面的1省略，因此23bit的尾數部分，能夠表示的精度卻變成了24bit，道理就是在這裏，那24bit能精確到小數點後幾位呢，咱們知道9的二進制表示爲1001，因此4bit能精確十進制中的1位小數點，24bit就能使float能精確到小數點後6位，而對於指數部分，由於指數可正可負，8位的指數位能表示的指數範圍就應該爲:-127-128了，因此指數部分的存儲採用移位存儲，存儲的數據爲元數據+127，下面就看看8.25和120.5在內存中的存儲方式。

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

首先看下8.25，用二進制的科學計數法表示爲:1.0001*

而單精度浮點數120.5的存儲方式以下圖所示:

將一個內存存儲的float二進制格式轉化爲十進制的步驟：
     （1）將第22位到第0位的二進制數寫出來，在最左邊補一位「1」，獲得二十四位有效數字。將小數點點在最左邊那個「1」的右邊。
     （2）取出第29到第23位所表示的值n。當30位是「0」時將n各位求反。當30位是「1」時將n增1。
     （3）將小數點左移n位（當30位是「0」時）或右移n位（當30位是「1」時），獲得一個二進制表示的實數。
     （4）將這個二進制實數化爲十進制，並根據第31位是「0」仍是「1」加上正號或負號便可。

那麼若是給出內存中一段數據，而且告訴你是單精度存儲的話，你如何知道該數據的十進制數值呢？其實就是對上面的反推過程，好比給出以下內存數據：0100001011101101000000000000，首先咱們現將該數據分段，0 10000 0101 110 1101 0000 0000 0000 0000，在內存中的存儲就爲下圖所示：

根據咱們的計算方式，能夠計算出，這樣一組數據表示爲:1.1101101*=120.5

而雙精度浮點數的存儲和單精度的存儲大同小異，不一樣的是指數部分和尾數部分的位數。因此這裏再也不詳細的介紹雙精度的存儲方式了，只將120.5的最後存儲方式圖給出，你們能夠仔細想一想爲什麼是這樣子的

下面我就這個基礎知識點來解決一個咱們的一個疑惑，請看下面一段程序，注意觀察輸出結果

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

         float f = 2.2f;
            double d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));
            f = 2.25f;
            d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));

可能輸出的結果讓你們迷惑不解，單精度的2.2轉換爲雙精度後，精確到小數點後13位後變爲了2.2000000476837，而單精度的2.25轉換爲雙精度後，變爲了2.2500000000000，爲什麼2.2在轉換後的數值更改了而2.25卻沒有更改呢？很奇怪吧？

首先咱們看看2.25的單精度存儲方式，很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精度表示爲:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候，數值是不會變的，而咱們再看看2.2呢，2.2用科學計數法表示應該爲：將十進制的小數轉換爲二進制的小數的方法爲將小數*2，取整數部分，因此0.282=0.4，因此二進制小數第一位爲0.4的整數部分0，0.4×2=0.8，第二位爲0,0.8*2=1.6,第三位爲1，0.6×2 = 1.2，第四位爲1，0.2*2=0.4，第五位爲0，這樣永遠也不可能乘到=1.0，獲得的二進制是一個無限循環的排列 00110011001100110011... ,對於單精度數據來講，尾數只能表示24bit的精度，因此2.2的float存儲爲:

可是這樣存儲方式，換算成十進制的值，卻不會是2.2的，應爲十進制在轉換爲二進制的時候可能會不許確，如2.2，而double類型的數據也存在一樣的問題，因此在浮點數表示中會產生些許的偏差，在單精度轉換爲雙精度的時候，也會存在偏差的問題，對於可以用二進制表示的十進制數據，如2.25，這個偏差就會不存在，因此會出現上面比較奇怪的輸出結果。

附註：

小數的二進制表示問題

首先咱們要搞清楚下面兩個問題：

(1) 十進制整數如何轉化爲二進制數

算法很簡單。舉個例子，11表示成二進制數：

11/2=5 餘 1

5/2=2 餘 1

2/2=1 餘 0

1/2=0 餘 1

0結束 11二進制表示爲(從下往上):1011

這裏提一點：只要遇到除之後的結果爲0了就結束了，你們想想，全部的整數除以2是否是必定可以最終獲得0。換句話說，全部的整數轉變爲二進制數的算法會不會無限循環下去呢？絕對不會，整數永遠能夠用二進制精確表示 ，但小數就不必定了。

(2) 十進制小數如何轉化爲二進制數