float浮點數的二進制存儲方式及轉換

int和float都是4字節32位表示形式。爲何float的範圍大於int?算法

float精度爲6~7位。1.66*10^10的數字結果並非166 0000 0000 指數越大,偏差越大。c#

這些問題,都是浮點數的存儲方式形成的。  spa


    float和double在存儲方式上都是聽從IEEE的規範的,code

    float聽從的是IEEE R32.24 ,而double 聽從的是R64.53。orm

    不管是單精度仍是雙精度在存儲中都分爲三個部分:blog

  1. 符號位(Sign) : 0表明正,1表明爲負ip

  2. 指數位(Exponent):用於存儲科學計數法中的指數數據,而且採用移位存儲內存

  3. 尾數部分(Mantissa):尾數部分get

其中float的存儲方式以下圖所示:it

而雙精度的存儲方式爲:

 將一個float型轉化爲內存存儲格式的步驟爲:

     (1)先將這個實數的絕對值化爲二進制格式。 
     (2)將這個二進制格式實數的小數點左移或右移n位,直到小數點移動到第一個有效數字的右邊。 
     (3)從小數點右邊第一位開始數出二十三位數字放入第22到第0位。 
     (4)若是實數是正的,則在第31位放入「0」,不然放入「1」。 
     (5)若是n 是左移獲得的,說明指數是正的,第30位放入「1」。若是n是右移獲得的或n=0,則第30位放入「0」。 
     (6)若是n是左移獲得的,則將n減去1後化爲二進制,並在左邊加「0」補足七位,放入第29到第23位。若是n是右移獲得的或n=0,則將n化爲二進制後在左邊加「0」補足七位,再各位求反,再放入第29到第23位。


R32.24和R64.53的存儲方式都是用科學計數法來存儲數據的,好比8.25用十進制的科學計數法表示就爲:8.25*clip_image0021,而120.5能夠表示爲:1.205*clip_image0022,計算機根本不認識十進制的數據,他只認識0,1,因此在計算機存儲中,首先要將上面的數更改成二進制的科學計數法表示,8.25用二進制表示可表示爲1000.01,120.5用二進制表示爲:1110110.1用二進制的科學計數法表示1000.01能夠表示爲1.0001*clip_image002[2],1110110.1能夠表示爲1.1101101*clip_image002[3],

任何一個數都的科學計數法表示都爲1.xxx*clip_image002[1],尾數部分就能夠表示爲xxxx,第一位都是1嘛,幹嗎還要表示呀?能夠將小數點前面的1省略,因此23bit的尾數部分,能夠表示的精度卻變成了24bit,道理就是在這裏,那24bit能精確到小數點後幾位呢,咱們知道9的二進制表示爲1001,因此4bit能精確十進制中的1位小數點,24bit就能使float能精確到小數點後6位,而對於指數部分,由於指數可正可負,8位的指數位能表示的指數範圍就應該爲:-127-128了,因此指數部分的存儲採用移位存儲,存儲的數據爲元數據+127,下面就看看8.25和120.5在內存中的存儲方式。     

------------------------------------------------

首先看下8.25,用二進制的科學計數法表示爲:1.0001*clip_image002[2]


而單精度浮點數120.5的存儲方式以下圖所示:

將一個內存存儲的float二進制格式轉化爲十進制的步驟: 
     (1)將第22位到第0位的二進制數寫出來,在最左邊補一位「1」,獲得二十四位有效數字。將小數點點在最左邊那個「1」的右邊。 
     (2)取出第29到第23位所表示的值n。當30位是「0」時將n各位求反。當30位是「1」時將n增1。 
     (3)將小數點左移n位(當30位是「0」時)或右移n位(當30位是「1」時),獲得一個二進制表示的實數。 
     (4)將這個二進制實數化爲十進制,並根據第31位是「0」仍是「1」加上正號或負號便可。

那麼若是給出內存中一段數據,而且告訴你是單精度存儲的話,你如何知道該數據的十進制數值呢?其實就是對上面的反推過程,好比給出以下內存數據:0100001011101101000000000000,首先咱們現將該數據分段,0 10000 0101 110 1101 0000 0000 0000 0000,在內存中的存儲就爲下圖所示:

根據咱們的計算方式,能夠計算出,這樣一組數據表示爲:1.1101101*clip_image002[3]=120.5

而雙精度浮點數的存儲和單精度的存儲大同小異,不一樣的是指數部分和尾數部分的位數。因此這裏再也不詳細的介紹雙精度的存儲方式了,只將120.5的最後存儲方式圖給出,你們能夠仔細想一想爲什麼是這樣子的

下面我就這個基礎知識點來解決一個咱們的一個疑惑,請看下面一段程序,注意觀察輸出結果

-------------------------------------------

         float f = 2.2f;
            double d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));
            f = 2.25f;
            d = (double)f;
            Console.WriteLine(d.ToString("0.0000000000000"));

可能輸出的結果讓你們迷惑不解,單精度的2.2轉換爲雙精度後,精確到小數點後13位後變爲了2.2000000476837,而單精度的2.25轉換爲雙精度後,變爲了2.2500000000000,爲什麼2.2在轉換後的數值更改了而2.25卻沒有更改呢?很奇怪吧?

首先咱們看看2.25的單精度存儲方式,很簡單 0 1000 0001 001 0000 0000 0000 0000 0000,而2.25的雙精度表示爲:0 100 0000 0001 0010 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000,這樣2.25在進行強制轉換的時候,數值是不會變的,而咱們再看看2.2呢,2.2用科學計數法表示應該爲:將十進制的小數轉換爲二進制的小數的方法爲將小數*2,取整數部分,因此0.282=0.4,因此二進制小數第一位爲0.4的整數部分0,0.4×2=0.8,第二位爲0,0.8*2=1.6,第三位爲1,0.6×2 = 1.2,第四位爲1,0.2*2=0.4,第五位爲0,這樣永遠也不可能乘到=1.0,獲得的二進制是一個無限循環的排列 00110011001100110011... ,對於單精度數據來講,尾數只能表示24bit的精度,因此2.2的float存儲爲:

可是這樣存儲方式,換算成十進制的值,卻不會是2.2的,應爲十進制在轉換爲二進制的時候可能會不許確,如2.2,而double類型的數據也存在一樣的問題,因此在浮點數表示中會產生些許的偏差,在單精度轉換爲雙精度的時候,也會存在偏差的問題,對於可以用二進制表示的十進制數據,如2.25,這個偏差就會不存在,因此會出現上面比較奇怪的輸出結果。

附註:

小數的二進制表示問題

       首先咱們要搞清楚下面兩個問題:

     (1)  十進制整數如何轉化爲二進制數

           算法很簡單。舉個例子,11表示成二進制數:

                     11/2=5   餘   1

                       5/2=2   餘   1

                       2/2=1   餘   0

                       1/2=0   餘   1

                          0結束         11二進制表示爲(從下往上):1011

          這裏提一點:只要遇到除之後的結果爲0了就結束了,你們想想,全部的整數除以2是否是必定可以最終獲得0。換句話說,全部的整數轉變爲二進制數的算法會不會無限循環下去呢?絕對不會,整數永遠能夠用二進制精確表示 ,但小數就不必定了。

      (2) 十進制小數如何轉化爲二進制數

           算法是乘以2直到沒有了小數爲止。舉個例子,0.9表示成二進制數

                     0.9*2=1.8   取整數部分  1

                     0.8(1.8的小數部分)*2=1.6    取整數部分  1

                     0.6*2=1.2   取整數部分  1

                     0.2*2=0.4   取整數部分  0

                     0.4*2=0.8   取整數部分  0

                     0.8*2=1.6   取整數部分  1

                     0.6*2=1.2   取整數部分  0

                              .........      0.9二進制表示爲(從上往下): 1100100100100......

           注意:上面的計算過程循環了,也就是說*2永遠不可能消滅小數部分,這樣算法將無限下去。很顯然,小數的二進制表示有時是不可能精確的 。其實道理很簡單,十進制系統中能不能準確表示出1/3呢?一樣二進制系統也沒法準確表示1/10。這也就解釋了爲何浮點型減法出現了"減不盡"的精度丟失問題。

相關文章
相關標籤/搜索