深刻理解計算機系統 -- 信息的表示和處理

1. 信息的存儲

    大多數計算機使用 8 位的塊,或者字節,做爲最小的尋址內存單位,而非訪問內存中單獨的位,機器級程序將內存視爲一個很是大的字節數組,稱爲 虛擬內存 ,內存的每一個字節都用一個惟一的數字標識,稱爲它的 地址 。以 C 語言的指針爲例,指針使用時指向某一個存儲塊的首字節的 虛擬地址 ,C 編譯器將指針和其類型信息結合起來,這樣便可以根據指針的類型,生成不一樣的機器級代碼來訪問存儲在指針所指向位置處的值。每一個程序對象能夠簡單視爲一個字節塊,而程序自己就是一個字節序列。數組

1.1 十六進制表示法

    一個字節由 8 位組成。用二進制表示即 00000000 ~ 11111111 。十進制表示爲 0 ~ 255 。因爲二者表示要麼過於冗餘,要麼轉換不遍,所以一般使用十六進制來表示一個字節。這幾種進制的轉換在此就很少說了。網絡

1.2 字數據大小

    每臺計算機都會有一個字長(此處字長非字節長度),指明 指針數據的標稱大小(nominal size),由於虛擬地址是以這樣的一個字來進行編碼的,因此字長決定的最重要的一個系統參數便是虛擬地址空間的最大大小。 對於一個字長爲 w 位的機器而言,虛擬地址的範圍爲 0 ~ (2 ^w )- 1 ,程序最多訪問 2 ^ w 個字節。以 32 位機器爲例,32位字長限制虛擬地址空間爲 (2 ^32) -1 ,程序最多訪問 2 ^ 32 個字節,大約爲 4 x 10^9 字節,即4 GB ( 根據 2 ^ 10 (1024) 約等於 10 ^ 3 (1000) ,能夠獲得 2 ^ 32 =  4 * 2^30 = 4 * 10 ^ 9 ) 。64位機器的限制虛擬地址空間爲 16 EB。大約爲 1.84 x 10 ^9 。函數

1.3 尋址和字節順序

    對於跨越多個字節的對象,咱們必須創建兩個規則:這個對象的地址是什麼以及在內存中如何排列這些字節。在幾乎全部的機器上,多字節對象都被存儲爲連續的字節序列,對象的地址爲這個字節序列中最小的字節地址。以 int 類型爲例,假定int 大小爲32 位,有變量 int x = 0x01234567 。若 x 的地址爲 0x100 ,則 x 的 4 個字節將被存儲在 0x100 , 0x101 , 0x102, 0x103 的位置,此時 4個字節的值分別爲 0x01, 0x23, 0x45, 0x67,那麼在內存中的排列順序有以下兩種狀況,編碼

  • 大端法:最高有效字節放在最前面的方式稱爲大端法,即將一個數字的最高位字節放在最小的字節地址。
  • 小端法:最低有效字節放在最前面的方式稱爲小端法,即將一個數字的最低位字節放在最小的字節地址。

  以上面的 x 爲例,x 的最高位字節是 0x01 ,將其放在最小的字節地址即 0x100。x 的最低位字節爲 0x67 ,將其放在最小的字節地址 0x100 。即大小端對應高低位字節。對於咱們來講,機器的字節順序是徹底不可見的,咱們大部分狀況下也無需關心其字節順序,可是在不一樣類型的機器之間經過網絡傳遞二進制數據的時候,如小端法機器傳送數據給大端法機器時,接受方接收到的字節序會變成反序,爲了不這種問題的產生,發送方和接收方都須要遵循一個網絡規則,發送方將二進制數據轉換成網絡標準,接收方再將這個網絡標準的字節序轉換成本身的字節序。此外,咱們在閱讀機器級代碼的時候,可能會出現以下的狀況:設計

  暫時忽略這條指令的意義,能夠看到左邊6個字節分別爲 01 05 43 0b 20 00 ,而右邊的指令中的地址爲 0x200b43,能夠看到從左邊的第三個字節開始,43 0b 20 是右邊指令地址的倒序,所以在閱讀這種機器級代碼的時候,也須要注意字節序的問題。此外還存在一種狀況。以下圖所示。3d

    咱們能夠看到, show_bytes 這個函數能夠打印出 start 指針指向的地址開始的 len 個字節內容,且不受字節序的影響,那麼它是如何作到的呢?在 show_int 函數中,能夠看到它將 參數 x 的地址強制類型轉換爲了 byte_pointer , 即 unsigned char * 。經過強制類型轉換的 start 指針指向的還是 x 的最低字節地址,可是其類型改變了,經過其類型編譯器會認爲該指針指向的對象大小爲 1 個字節,此時將該指針進行 ++ 操做能夠獲得順延下一個字節的內容,從而獲得對應的整個對象的字節序列中每一個字節的內容而不受字節序影響。指針

1.4 字符串

    在C語言中,字符串被編碼爲一個以 null (其值爲0 )字符結尾的字符數組。每一個字符都有某個標準編碼來表示,最多見的則是 ASCII 字符碼。假如咱們調用 show_bytes("12345", 6),那麼會輸出 31 32 33 34 35 00 。能夠看到最後打印出了一個終止符,因此一般 C 字符串的長度爲實際字符串長度 + 1。 在C 標準庫中的 strlen 函數能夠傳入一個字符串得出其長度,這裏的長度便是實際長度,不包含終止符。orm

2. 整數表示

    在本章節中,介紹了編碼整數的兩種不一樣的方式,一種只能表示非負數,另外一種則可以表示負數,正數和零。接下來逐一進行介紹。對象

2.1 整型數據類型

    C語言中,整數有多種數據類型,以下圖所示,此外能夠經過加上 unsigned 符號來限定該數據類型爲非負數。這些數據類型有的是根據機器的字長(32位和64位)決定其實際最大值和最小值的範圍。咱們能夠看到,圖中最小值和最大值的取值範圍是不對稱的,負數的取值範圍比正數大一,當咱們考慮如何表現負數時,會看到爲何會這樣。blog

    關於無符號整數的編碼,其實與普通的十進制正數轉換成二進制沒有什麼區別,假設字長 w = 32 位,轉換後大於 32 位的數字將被捨去。這裏主要介紹一下關於有符號數字的編碼,一般計算機使用的編碼表示方式爲 補碼 ,在這個表示方式中,將字的最高有效位(即符號位)表示爲負權,權重爲 - 2^(w-1) ,當 w 位的值爲 1 時表示爲負數,反之爲正數。以 -1 爲例,-1 的補碼爲1111 1111  .... .... 1111 ,即 -2^31 + 2^30 + ... + 2^0 = -1 ,一般咱們看到一個負數想要直接將其使用補碼錶示仍是有些不方便的,所以咱們能夠先使用原碼錶示,所謂原碼和普通的十進制數轉二進制數沒有區別,只不過最高位用來表示符號位,而後再求其反碼,即符號位不變,其他位取反加 1,就能夠獲得這個負數的補碼了,仍是以 -1 舉例, -1 的原碼爲 1000 0000 .... 0001 ,其反碼的值爲 1111 1111 .... 1111 ,與 -1 的補碼值是相同的。而正數的補碼爲其自己,不須要作這種轉換。

    那麼爲何要使用補碼這種表示方式呢,首先,二進制補碼可使正負數相加時仍然採用正常加法的邏輯,不須要作特殊的處理,此外,若是不採用補碼錶示,採用原碼的表示方法,那麼會出現幾個問題,正負零的存在,以及提升了減法的計算複雜度,而補碼能夠十分簡單的計算正負數相加,只需求出二者的補碼對其進行加法,更多關於補碼的解釋能夠參考 stackoverflow 。

PS: 爲何正負數補碼相加會獲得正確的結果,這裏我的的看法是:因爲補碼最高位爲負權,而正數與負數補碼相加至關於正數去抵消這個負權。好比 -16 的補碼爲 1111 .... 1111 0000,加上正數 1,因爲正數的補碼爲自己,因此等價於 -16 + 1  == (-2^31 + 2^30 + ... + 2^4 ) +  2^ 0 ,至關於多了一個 2^0 的正權去抵消其最高位的負權。

2.2 有符號數和無符號數之間的轉換

    C語言容許各類不一樣的數字類型之間進行強制類型轉換, 如 int x= -1 ; unsigned y = (unsigned) x ; 此時會將 x 的值強制類型轉換成 unsigned 類型而後賦值給 y ,那麼此時 y 的值是多少呢?能夠經過打印二者的十六進制值來看有什麼區別。下面爲 test.c 的代碼:

int main()

{

int x = -1;

unsigned y = (unsigned) x;

printf("%x \n", x);

printf("%x \n", x);

return 0;

}

此處爲編譯後可執行文件的輸出結果:

ffffffff
ffffffff

能夠看到, x 和 y 的十六進制值是相同的,這也說明了,強制類型轉換並不會改變數據底層的位表示,只是改變了解釋位模式的方式。咱們能夠利用 printf 的指示符進一步驗證這個結果,使用 %d (有符號十進制), %u (無符號十進制), 來打印 x 和 y 的值。如下是代碼:

int main()

{

int x = 1;

unsigned y = (unsigned) x;

printf("x format d = %d , format u = %u \n", x, x);

printf("y format d = %d , format u = %u \n", y, y);

return 0;

}

這是編譯後可執行文件的對應輸出:

x format d = -1 , format u = 4294967295
y format d = -1 , format u = 4294967295

 咱們能夠看到,咱們使用指示符控制瞭解釋這些位的方式,獲得的結果是一致的。

2.3 整數運算

 關於整數的運算,主要就是加減乘除四種運算,補碼的加減乘除都比較簡單明瞭,這裏主要說一下除法的舍入問題,首先,咱們先確認下 C 語言中的舍入方式,在 C 語言中,浮點數被賦值給整數時,小數位老是被捨去,如

float f = 1.5;

int x = f ;

printf("%d \n ", x);

輸出的結果爲:

1

當 f 爲負數時結果又是如何呢 ?

float f = -1.5 ;

int x = f;

printf("%d \n", x);

輸出的結果爲:

-1

所以咱們能夠認爲,C語言的舍入方式爲向零舍入。接下來看一下除法的舍入問題。此處先以除以 2 的冪的無符號除法爲例,

上圖表示 12340 / 2^k 的時候二進制與對應的十進制的表示,此時的舍入是徹底沒有問題的。接下來看下除以 2 的冪的有符號除法。

    當k = 4 的時候,-12340 / 2^ 4 == -771.25,此時的正確舍入值應該爲 -771,可是其卻舍入成了 -772。這是由於,若是咱們單純使用右移來進行除法的時候,其舍入方式爲向下舍入,即老是往更小值的方向舍入,在沒有小數位的狀況下是正確的,可是若是有小數位的時候,如 -771.25 舍入爲 -772, 771.25 舍入爲 771。而C語言的舍入方式爲向零舍入,即老是往靠近零的值舍入,如 771.25 舍入爲 771, -771.25 舍入爲 -771。那麼如何實現這種舍入方式呢。當被除數爲負數時,咱們能夠經過加上一個偏置值來糾正這種不正確的舍入方式。

    咱們能夠觀察一下上圖的有符號除法例子,能夠發現,當右移的 k 位單獨拿出來,不爲 0 的時候,會致使舍入結果不正確,這是由於,k 位的值不爲 0 的時候,表示該結果有小數,因此能夠經過 (x + (1 << k) - 1) >> k 獲得正確的結果, (1 << k) - 1 能夠得到 k 個 1,x 加上 k 個 1 可使捨去的 k 位不爲 0 時產生進位,x >> k 的結果加一,從而使舍入正確。

關於整數的表示和運算,我的以爲有幾個須要關注的點,一是溢出問題,因爲使用有限的位來表示整數,因此當數字過大的時候可能會產生溢出,溢出的位會被捨去,可是有符號數的溢出可能會使符號位被置反,如 0111 1111 .... 1111 + 1 = 1000 0000 .... 0000,0111 1111 .... 1111 爲 INT_MAX , INT_MAX + 1 會獲得 INT_MIN。此外,無符號數與有符號數進行比較的時候,會使有符號數強制轉換爲無符號數,若是有如下循環代碼:

for(size_t i = 10; i >= 0 ; i--);

因爲 i 爲無符號數,當 i == 0 的時候,判斷還會繼續循環下去, 0 - 1  = -1 , -1 的補碼錶示爲 1111 1111 .... 1111 , 恰好是無符號數的最大值,會致使死循環。所以也須要注意一切與無符號類型數據的運算,以及強制類型轉換可能出現的問題。

3. 浮點數

    終於來到了這一章的重點內容之一(其實感受這本書哪裏都挺重要的),這裏主要介紹浮點數是如何表示的,而且介紹浮點數舍入的問題(和上面講到的舍入不大同樣),浮點數的表示及其運算標準稱爲 IEEE754 標準,初看可能會讓你以爲有些晦澀難懂,可是理解以後會以爲設計的十分巧妙。

3.1 定點表示法

    首先讓咱們先看下十進制的浮點數是如何表示的,浮點數的定義與小數點息息相關,定義在小數點左邊的數字的權是 10 的正冪,右邊的數字爲 10 的負冪,如 12.34 表示 1 * 10^ 1 + 2 * 10^0 + 3 * 10 ^-1 + 4 * 10 ^ -2 = 12又34/100,同理能夠獲得二進制的浮點數表示,即定義在小數點左邊的數字的權是 2 的正冪,右邊的數字爲 2 的負冪,如 101.11 = 1 * 2^2 + 0 * 2^1 + 1 * 2^0 + 1 * 2^-1 + 1 * 2^-2 。這種浮點數的表示方法是有缺陷的,沒法精準的表示特定的數字,以 1/5 爲例,能夠用 十進制數字 0.2 表示,可是咱們沒法用二進制數字表示它,只能近似的表示它,經過增長二進制表示的長度能夠提高表示的精度。以下圖所示。

3.2 IEEE754標準

    在前面談到的定點表示法不能有效的表示一個比較大的數字,例如 5 x 2^100 是用 101 後面跟隨 100 個零的位模式,咱們但願可以經過給定 x 和 y 的值來表示如 x * 2 ^y 的數字。IEEE754 標準使用 V = ( - 1)^S * M * 2^E 的形式來表示一個數。

  • 符號(Sign): S 決定這個數是負數(S = 1 )仍是正數 (S = 0), 對於數值爲 0 的符號位作特殊解釋。
  • 尾數(Significand): M 是一個二進制小數,範圍爲 1 ~ 2 - e , 或者是 0 ~ 1 - e 。
  • 階碼(Exponent): E 的做用是對浮點數進行加權,這個權重是 2 的 E 次冪(E 可能爲負數)。

經過將浮點數的位劃分爲三個字段,分別對這些值進行編碼:

  • 一個單獨的符號位 S 。
  • k 位的階碼字段 ,exp = e(0) e(1) e(2) ... e(k-1) ,exp 用來編碼階碼 E。
  • n 位的小數字段 ,   frac = f(n-1) ... f(1) f(0) ,frac 用來編碼尾數 M。

下圖是該標準下封裝到字中的兩種最多見的格式。

此外,根據階碼值(exp),被編碼的值能夠分爲下圖幾種狀況(階碼值全爲 0 ,階碼值全爲 1 , 階碼值不全爲 0 也不全爲 1):

接下來對這幾種格式進行一一介紹~:

  • 規格化浮點數 : 這是最廣泛的狀況,當 exp 的值不全爲 0 也不全爲 1 時,就屬於這種狀況,這種狀況下,階碼值 E = e - bias ,其中 e 爲無符號數,即 exp 的值,而 bias 是一個 2^(k-1) - 1 的偏置值(單精度爲 127,雙精度爲 1023),而小數字段 frac 被解釋爲描述小數值 f ,其中 0 <= f < 1,其二進制表示爲 0.f(n-1)...f(1)f(0) 的數字,也就是二進制小數點在最高有效位的左邊的形式。尾數定義爲 M = 1 + f 。 有時候這種方式也叫作 隱含 1 開頭的表示(implied leading  1),由於這種定義咱們能夠把 M 當作一個二進制表示爲 1.f(n-1) ... f(1)f(0) 的數字。既然咱們老是能調整階碼 E ,使得尾數 M 在範圍 1 <= M < 2 之中(假設沒有溢出),那麼這樣能夠節約一個位,由於第一位老是爲 1 。
  • 非規格化浮點數 : 當 exp 的值全爲 0 的時候,所表示的浮點數爲非規格化類型,E = 1 - bias ,而尾數的值爲 M = f 。不含開頭的 1 。非規格化有兩種用途,首先它提供了表示  0 的方法,由於規格化數使得 M >=  1,因此不能表示 0 ,另外非規格化數另外一個功能則是表示那些很是接近於 0.0 的數,他們提供了一種屬性,稱爲逐漸溢出,其中,可能的數值均勻分佈接近於 0.0 。
  • 特殊值 : 最後一類數值是指當階碼全爲 1 的時候出現的。當小數域全爲 0 時,表示爲無窮大/小,當咱們將兩個很是大的數相乘時,或者除以零時,無窮可以表示溢出的結果。當小數域爲非 0 時,結果爲 NaN(Not a Number),一些運算的結果不能爲實數或者無窮時,會返回 NaN,好比 根號 -1 ,或者 無窮減無窮。此外,在某些應用中也能夠用來表示未初始化的數值。

    首先,經過一個字長爲 8 位的例子,來看一下IEEE754標準實際上使用時是如何表示的 :

    上圖爲展現了假定 w = 8 的字長,k = 4 的階碼位以及 n = 3 的小數位。偏移量爲 2 ^ ( k -1 ) -1 = (2 ^ 3) - 1 = 7。圖中分別展現了非規格化數,規格化數以及特殊值是如何編碼的,以及如何結合在一塊兒表示 V = (2^E) * M。咱們能夠看到,從最大非規格化數到最小規格化數,其值的轉變十分平滑,從 7/512 到 8/512 。這得益於非規格化數的 E 定義爲 1 - bias ,最大的非規格化數的階碼值 E 與最小的規格化數的階碼值 E 是相等的,二者惟一的區別在於 M 值,規格化數尾數 M = 1 + f ,而非規格化的尾數 M = f ,由於非規格化值是用於表示 [0, 1] 區間的小數的,當 f 達到最大值時, f 接近於 1 ,此時最大的非規格化數再進一位,小數 M 只能表示爲 1 ,由於此時限制於 f 的位數,沒有比 f 大又比 1 小的小數值 ,進位後轉換成了規格化數,此時 f = 0 , 在階碼值 E 相等的狀況下,讓規格化的 M = 1 + f 剛好可使二者進行平滑的轉換。

    假如咱們使非規格化數的 E = 0 - bias = -7 ,那麼會致使最大非規格化數和最小規格化數的粒度過大,二者的值分別爲 7/1024 和 8/512 。這種定義能夠彌補非規格化數的尾數沒有隱含的 1 。經過上述的例子,咱們能夠發現 ,假如咱們把上述的例子按無符號整數表示的話,會發現它的值是有序上升的,這不是偶然的,IEEE 格式如此設計就是爲了浮點數可以使用整數排序函數進行排序。

    經過練習將整數值轉換爲浮點數值形式對理解浮點數頗有用,以 12345(十進制) 爲例,其二進制表示爲 1100 0000 1110 01 . 0  ,經過將小數點左移 13 位獲得 1.1000000111001 * 2^13 ,咱們丟棄開頭的 1 (這裏的 1 就是規格化數隱含的 1),構造小數字段,當 f 不足 23 位的時候,日後填充 0 ,即 M = 1 + f = 1 + 1000 0001 1100 1000 0000 000 ,當 f 大於 23 位的時候,f 多出的位會被捨棄(這裏能夠看出浮點數的兩個性質,以 int 類型和 float 類型舉例,當 int 值 大於 2^24 的時候,int 轉換成 float 二者頗有可能值會不相等,由於多出的部分被捨棄了,二是 float 能夠表示的數值遠遠大於 int 類型,V =  (-1 ^ S)  * M * 2^E  ,E 最高能夠等於 127 ,float 的最大值爲 (2^127) * (1 + f),而 int 最大值爲 (2^31) -1。

3.3 舍入

    浮點數的舍入方式有四種,分別是向上舍入,向下舍入,向零舍入,向偶數舍入。下圖是幾種舍入方式的例子 :

偶數舍入是浮點數默認的舍入方式,能夠看到,向偶數舍入時,當小數值爲中間值時,會使最低有效數字總爲偶數,如 2.5 和 1.5 都舍入爲 2 。爲何使用向偶數舍入呢,假設咱們採用向上舍入,用這種方法舍入一組數值,會在計算這些值的平均值中引入統計誤差。咱們採用這種方式舍入獲得的平均值老是比這些數自己的平均值要略高一些,反之向下舍入亦然,向偶數舍入則可使在 50% 的時間內向上舍入,50% 的時間內向下舍入。

4. 小結

    • 計算機將信息編碼爲位(bit),一般組織成字節序列,有不一樣的編碼方式來表示整數,實數和字符串。不一樣的計算機模型在編碼數字和多字節數據中的字節順序時使用不一樣的約定。
    • 絕大部分機器使用補碼來編碼整數。對於浮點數使用 IEEE754 標準來編碼。
    • 在進行對無符號和有符號整數進行強制類型轉換時,底層的位模式是不變的。(浮點數與整數轉換則會進行 改變,如 float f = 1.25; int x = f; 此時打印二者的十六進制值,能夠分別輸出爲 f = 92463258 ,x = 1 )
    • 因爲編碼的長度有限,當超出表示範圍時,有限長度會引發數值溢出,如 x * x 可能會獲得負數。當浮點數很是接近於 0.0 時,轉換成 0 時也會產生下溢。
    • 使用補碼運算 ~x + 1 = -x (不適用於 INT_MIN) 。能夠經過 (2^k) - 1 生成一個 k 位的掩碼。
    • 浮點數不具有結合率,由於可能發生溢出或者舍入,從而失去精度。如(le20 * le20) * le-20 = 正無窮,而 le20 * (le20 * le-20) = le20 。此外也不具有分配性,如 le20 * (le20 - le20) = 0.0 ,而 le20 * le20 - le20 * le20 = NaN。
相關文章
相關標籤/搜索