浮點數表示及其實現

時間 2019-11-13

標籤浮點數表示及其實現简体版

原文原文鏈接

我兩年前就知道不該該用==號來判斷浮點數的相等了,由於存在一個精度的問題,可是一直以來,都沒怎麼在意這些東西,而實際上,我對於浮點數的結構,雖然瞭解,但並不清晰. 做爲一個C++愛好者,應該儘可能搞清楚每個問題,因此我搞清楚了浮點數的內在表示及實現.在沒有大問題的狀況下,一切以易於理解和記憶爲標準.git

首先說一下原,反,補,移碼. 移碼其實就等於補碼,只是符號相反. 對於正數而言,原,反,補碼都同樣, 對負數而言,反碼除符號位外,在原碼的基礎上按位取反,補碼則在反碼的基礎之上,在其最低位上加1,要求移碼時,仍然是先求補碼,再改符號.函數

浮點數分爲float和double,分別佔4,8個字節,即32,64位. 我僅以32位的float爲例,並附帶說double.spa

在IEEE754標準中,規定,float的32位這樣分:內存

符號位(S)ci

1編譯器

階碼(E)it

8io

尾數(M)編譯

23table

這裏應該注意三點: A,階碼是用移碼錶示的,這裏會有一個127的偏移量,它的127至關於0,小於127時爲負,大於127時爲正,好比:10000001表示指數爲129-127=2,表示真值爲2^2,而01111110則表示2^(-1).

B, 尾數全都是小數點後面的數,

C, 但尾數中省略了一個1,所以尾數全爲0時,也是1.0...00;

接下來只要說明幾個問題就明白了,以123.456爲例,表示爲二進制就是:N (2) = 1111011. 01110100101111001 ,這裏,會右移6位,獲得N (2) = 1.111011 01110100101111001*2^6; 這種形式就能夠用於上圖中的表示格式了.

符號位(S)

階碼(E) 00000110

尾數(M)11101101110100101111001

注意到,上面的階碼第一位爲0表正,尾數比N(2)表示的第一位少了個1,這就是上面說的默認爲第一位爲1. 因爲在將十進制轉爲二進制的過程當中,經常不能正好轉得相等, (固然,像4.0這樣的就不會有損失,而1.0/3.0這樣的必然損失),因此就產生了浮點數的精度問題, 實際上,小數點後的23位二進制數,能影響的十進制數的前8位,這是爲何呢?通常人在這時每每迷迷胡胡了,其實很簡單,在上面表示的尾數中,是二進制的,小數點後有23位,最後一位的值爲1時,它就是1/2^22=0.000000238實際取的時候確定是0.0000002,也就是說,對於一個float型的浮點數,其有效的位數是從左到右數7位(包括缺省的1纔是7位),當到達上面這個第8位時,就不可靠了,但咱們的VC6能夠輸出最長的1.0/3.0爲0.33333333333333331,這主要是編譯器的問題了, 而並非說浮點數小數點後的16位都有效. 若是不信的話,能夠去試一下double類型的1.0/3.0, 獲得的也將是小數點後17位. ..另外,編譯器或電路板通常都有"去噪聲"的"修正"能力,它可以使得超過7位的十進制數即便無效了也不會變得離譜,這也是上面爲何一直都是輸出333而不是345之類的,. 能夠這樣試一下:

float f=123456789;
cout<<f<<endl;//這裏確定獲得123456789.

這裏有一個被人遺忘的問題,就是10進制小數怎麼變爲2進制小數,其實很簡單,就是將10進的小數部分不斷乘以2,進位時就將對應的2進制位寫入1. 所以將上面的N (2) = 1.111011 01110100101111001*2^6;再轉回十進制數時,極可能已經再也不是123.456了. 好,精度問題應該說清楚了. 下面說示數範圍.

階碼的示數位數是8位移碼,最大爲127最小爲-127,這裏的127用來做爲2的指數,所以爲2^127,約等於 1.7014*10^38, 而咱們知道,float的示數範圍約爲-3.4*10^38-------3.4*10^38, 這是由於尾數的24位(默認第一位爲1)全爲1是,很是接近2, 1.11..11很明顯約爲2,所以浮點數的範圍就出來了.

double的狀況與float徹底類似,只是它的內在形式是

符號位(S)

階碼(E)

尾數(M)

主要的區別在於它的階碼有11位了, 這就有2^1023約等於 0.8572*10^308, 尾數53位約爲2,故double的示數範圍約爲 -1.7*10^308.------1.7*10^308. 至於其精度,一樣,1.0/2^51=4.4*10^(-16).小數點後15位有效,加上缺省的那一位,所以對於double浮點數,從左到右的16位數都是可靠的.

有時,咱們會聽到"定點小數"這個詞,單片機(如手機等)通常只使用定點數,迷糊的時候,咱們會覺得 float a=23.4; 這種是定點小數, float a=2.34E1這種爲浮點數,其實這是錯誤的, 上面只是同一個浮點數的不一樣表示,都是浮點數. 定點小數是有這種提法,認爲整就是定點小數,小數點定在個位後面,小數部分爲0.也可認爲純小數是定點小數,但它只能表示小於1的純小數.

而後再說一下C/C++中的幾個函數, C++中默認輸出小數點後的5位小數,但能夠設置,有兩種方法:調用setpression或者使用cout.pression,但效果是不一樣的:

float mm=123.456789f;
cout<<mm<<endl; //123.457           雖然說默認爲不數點後5位,但只是整數部分只有一位才這樣.
setprecision(10);                               //設置小數點後的位數,但當整數部分有兩位時,與默認狀況沒什麼兩樣,不起做用.
cout<<mm<<endl; //123.457
cout.precision(4);                              //設置總的位數.
cout<<mm<<endl; //123.4     總之效果是比較怪的,我的認爲雖然這樣顯得不夠肯定,但實爲硬件系統所限.無可厚非.

對於0的實際表示,有人認爲+0通常能絕對爲0,而-0則可能表示一個極小的數. 爲此,本人想到了一種很好的驗證辦法,證實了無論+0仍是-0,它都是2^(-127),代碼以下:

float fDigital = 0.0f;
unsigned long nMem;// 臨時變量，用於存儲浮點數的內存數據
// 將內存按位複製到臨時變中，以便取用,此時的nMem並不等於fDigital了,它是按位複製的。
nMem = *(unsigned long*)&fDigital;
cout<<nMem<<endl; //通常獲得一個很大的整數.

bitset<32>mybit(nMem);//妙在此處,這裏的輸出就是32float的內存表示了.終於徹底直觀地看到了.
cout<<mybit<<endl; //00000000000000000000000000000000 用-0.0來試,也是如此.

若是你還認爲上面那一長串的0表示的是絕對的0,那麼請從新看本文. 事實上,本人的這種作法是比較巧妙的,將上面的fDigital用任何其它浮點數表示,這個bitset數均可以反映出它的內存表示.

有移碼錶示階碼有是有緣由的,主要是移碼便於對階操做,從而比較兩個浮點數的大小. 這裏要注意的是,階碼不能達到11111111的形式,IEEE規定,當編譯器遇到階碼爲0XFF時,即調用溢出指令. 總之,階碼化爲整數時,範圍是:-127~127.

最後,有一個每每高手也汗顏的地方,必定要記住,浮點數沒有無符號型的usinged float/double是錯誤的.

本人才疏學淺,歡迎批評指正.