前言程序員
代碼寫了那麼多,你知道 a = 1 + 2 這條代碼是怎麼被 CPU 執行的嗎?編程
軟件用了那麼多,你知道軟件的 32 位和 64 位之間的區別嗎?再來 32 位的操做系統能夠運行在 64 位的電腦上嗎?64 位的操做系統能夠運行在 32 位的電腦上嗎?若是不行,緣由是什麼?數組
CPU 看了那麼多,咱們都知道 CPU 一般分爲 32 位和 64 位,你知道 64 位相比 32 位 CPU 的優點在哪嗎?64 位 CPU 的計算性能必定比 32 位 CPU 高不少嗎?函數
不知道也不用慌張,接下來就按部就班的、一層一層的攻破這些問題。性能
image優化
正文編碼
圖靈機的工做方式spa
要想知道程序執行的原理,咱們能夠先從「圖靈機」提及,圖靈的基本思想是用機器來模擬人們用紙筆進行數學運算的過程,並且還定義了計算機由哪些部分組成,程序又是如何執行的。操作系統
圖靈機長什麼樣子呢?你從下圖能夠看到圖靈機的實際樣子:翻譯
image
<figcaption >圖來源自:http://www.kristergustafsson.me/turing-machine/</figcaption>
圖靈機的基本組成以下:
知道了圖靈機的組成後,咱們以簡單數學運算的 1 + 2 做爲例子,來看看它是怎麼執行這行代碼的。
image
image
image
image
image
經過上面的圖靈機計算 1 + 2 的過程,能夠發現圖靈機主要功能就是讀取紙帶格子中的內容,而後交給控制單元識別字符是數字仍是運算符指令,若是是數字則存入到圖靈機狀態中,若是是運算符,則通知運算符單元讀取狀態中的數值進行計算,計算結果最終返回給讀寫頭,讀寫頭把結果寫入到紙帶的格子中。
事實上,圖靈機這個看起來很簡單的工做方式,和咱們今天的計算機是基本同樣的。接下來,咱們一同再看看當今計算機的組成以及工做方式。
馮諾依曼模型
在 1945 年馮諾依曼和其餘計算機科學家們提出了計算機具體實現的報告,其遵循了圖靈機的設計,並且還提出用電子元件構造計算機,並約定了用二進制進行計算和存儲,還定義計算機基本結構爲 5 個部分,分別是中央處理器(CPU)、內存、輸入設備、輸出設備、總線。
image
這 5 個部分也被稱爲馮諾依曼模型,接下來看看這 5 個部分的具體做用。
內存
咱們的程序和數據都是存儲在內存,存儲的區域是線性的。
數據存儲的單位是一個二進制位(bit),即 0 或 1。最小的存儲單位是字節(byte)**,1 字節等於 8 位。
內存的地址是從 0 開始編號的,而後自增排列,最後一個地址爲內存總字節數 - 1,這種結構好似咱們程序裏的數組,因此內存的讀寫任何一個數據的速度都是同樣的。
中央處理器
中央處理器也就是咱們常說的 CPU,32 位和 64 位 CPU 最主要區別在於一次能計算多少字節數據:
這裏的 32 位和 64 位,一般稱爲 CPU 的位寬。
之因此 CPU 要這樣設計,是爲了能計算更大的數值,若是是 8 位的 CPU,那麼一次只能計算 1 個字節 0~255 範圍內的數值,這樣就沒法一次完成計算 10000 * 500 ,因而爲了能一次計算大數的運算,CPU 須要支持多個 byte 一塊兒計算,因此 CPU 位寬越大,能夠計算的數值就越大,好比說 32 位 CPU 能計算的最大整數是4294967295。
CPU 內部還有一些組件,常見的有寄存器、控制單元和邏輯運算單元等。其中,控制單元負責控制 CPU 工做,邏輯運算單元負責計算,而寄存器能夠分爲多種類,每種寄存器的功能又不盡相同。
CPU 中的寄存器主要做用是存儲計算時的數據,你可能好奇爲何有了內存還須要寄存器?緣由很簡單,由於內存離 CPU 太遠了,而寄存器就在 CPU 裏,還緊挨着控制單元和邏輯運算單元,天然計算時速度會很快。
常見的寄存器種類:
總線
總線是用於 CPU 和內存以及其餘設備之間的通訊,總線可分爲 3 種:
當 CPU 要讀寫內存數據的時候,通常須要經過兩個總線:
輸入、輸出設備
輸入設備向計算機輸入數據,計算機通過計算後,把數據輸出給輸出設備。期間,若是輸入設備是鍵盤,按下按鍵時是須要和 CPU 進行交互的,這時就須要用到控制總線了。
線路位寬與 CPU 位寬
數據是如何經過地址總線傳輸的呢?實際上是經過操做電壓,低電壓表示 0,高壓電壓則表示 1。
若是構造了高低高這樣的信號,其實就是 101 二進制數據,十進制則表示 5,若是隻有一條線路,就意味着每次只能傳遞 1 bit 的數據,即 0 或 1,那麼傳輸 101 這個數據,就須要 3 次才能傳輸完成,這樣的效率很是低。
這樣一位一位傳輸的方式,稱爲串行,下一個 bit 必須等待上一個 bit 傳輸完成才能進行傳輸。固然,想一次多傳一些數據,增長線路便可,這時數據就能夠並行傳輸。
爲了不低效率的串行傳輸的方式,線路的位寬最好一次就能訪問到全部的內存地址。CPU 要想操做的內存地址就須要地址總線,若是地址總線只有 1 條,那每次只能表示 「0 或 1」這兩種狀況,因此 CPU 一次只能操做 2 個內存地址;若是想要 CPU 操做 4G 的內存,那麼就須要 32 條地址總線,由於 2 ^ 32 = 4G。
知道了線路位寬的意義後,咱們再來看看 CPU 位寬。
CPU 的位寬最好不要小於線路位寬,好比 32 位 CPU 控制 40 位寬的地址總線和數據總線的話,工做起來就會很是複雜且麻煩,因此 32 位的 CPU 最好和 32 位寬的線路搭配,由於 32 位 CPU 一次最多隻能操做 32 位寬的地址總線和數據總線。
若是用 32 位 CPU 去加和兩個 64 位大小的數字,就須要把這 2 個 64 位的數字分紅 2 個低位 32 位數字和 2 個高位 32 位數字來計算,先加個兩個低位的 32 位數字,算出進位,而後加和兩個高位的 32 位數字,最後再加上進位,就能算出結果了,能夠發現 32 位 CPU 並不能一次性計算出加和兩個 64 位數字的結果。
對於 64 位 CPU 就能夠一次性算出加和兩個 64 位數字的結果,由於 64 位 CPU 能夠一次讀入 64 位的數字,而且 64 位 CPU 內部的邏輯運算單元也支持 64 位數字的計算。
可是並不表明 64 位 CPU 性能比 32 位 CPU 高不少,不多應用須要算超過 32 位的數字,因此若是計算的數額不超過 32 位數字的狀況下,32 位和 64 位 CPU 之間沒什麼區別的,只有當計算超過 32 位數字的狀況下,64 位的優點才能體現出來。
另外,32 位 CPU 最大隻能操做 4GB 內存,就算你裝了 8 GB 內存條,也沒用。而 64 位 CPU 尋址範圍則很大,理論最大的尋址空間爲 2^64。
程序執行的基本過程
在前面,咱們知道了程序在圖靈機的執行過程,接下來咱們來看看程序在馮諾依曼模型上是怎麼執行的。
程序其實是一條一條指令,因此程序的運行過程就是把每一條指令一步一步的執行起來,負責執行指令的就是 CPU 了。
image
那 CPU 執行程序的過程以下:
簡單總結一下就是,一個程序執行的時候,CPU 會根據程序計數器裏的內存地址,從內存裏面把須要執行的指令讀取到指令寄存器裏面執行,而後根據指令長度自增,開始順序讀取下一條指令。
CPU 從程序計數器讀取指令、到執行、再到下一條指令,這個過程會不斷循環,直到程序執行結束,這個不斷循環的過程被稱爲 CPU 的指令週期。
a = 1 + 2 執行具體過程
知道了基本的程序執行過程後,接下來用 a = 1 + 2 的做爲例子,進一步分析該程序在馮諾伊曼模型的執行過程。
CPU 是不認識 a = 1 + 2 這個字符串,這些字符串只是方便咱們程序員認識,要想這段程序能跑起來,還須要把整個程序翻譯成彙編語言的程序,這個過程稱爲編譯成彙編代碼。
針對彙編代碼,咱們還須要用匯編器翻譯成機器碼,這些機器碼由 0 和 1 組成的機器語言,這一條條機器碼,就是一條條的計算機指令,這個纔是 CPU 可以真正認識的東西。
下面來看看 a = 1 + 2 在 32 位 CPU 的執行過程。
程序編譯過程當中,編譯器經過分析代碼,發現 1 和 2 是數據,因而程序運行時,內存會有個專門的區域來存放這些數據,這個區域就是「數據段」。以下圖,數據 1 和 2 的區域位置:
注意,數據和指令是分開區域存放的,存放指令區域的地方稱爲「正文段」。
image
編譯器會把 a = 1 + 2 翻譯成 4 條指令,存放到正文段中。如圖,這 4 條指令被存放到了 0x200 ~ 0x20c 的區域中:
編譯完成後,具體執行程序的時候,程序計數器會被設置爲 0x200 地址,而後依次執行這 4 條指令。
上面的例子中,因爲是在 32 位 CPU 執行的,所以一條指令是佔 32 位大小,因此你會發現每條指令間隔 4 個字節。
而數據的大小是根據你在程序中指定的變量類型,好比 int 類型的數據則佔 4 個字節,char 類型的數據則佔 1 個字節。
指令
上面的例子中,圖中指令的內容我寫的是簡易的彙編代碼,目的是爲了方便理解指令的具體內容,事實上指令的內容是一串二進制數字的機器碼,每條指令都有對應的機器碼,CPU 經過解析機器碼來知道指令的內容。
不一樣的 CPU 有不一樣的指令集,也就是對應着不一樣的彙編語言和不一樣的機器碼,接下來選用最簡單的 MIPS 指集,來看看機器碼是如何生成的,這樣也能明白二進制的機器碼的具體含義。
MIPS 的指令是一個 32 位的整數,高 6 位表明着操做碼,表示這條指令是一條什麼樣的指令,剩下的 26 位不一樣指令類型所表示的內容也就不相同,主要有三種類型R、I 和 J。
image
一塊兒具體看看這三種類型的含義:
接下來,咱們把前面例子的這條指令:「add 指令將寄存器 R0 和 R1 的數據相加,並把結果放入到 R3」,翻譯成機器碼。
image
加和運算 add 指令是屬於 R 指令類型:
把上面這些數字拼在一塊兒就是一條 32 位的 MIPS 加法指令了,那麼用 16 進製表示的機器碼則是 0x00011020。
編譯器在編譯程序的時候,會構造指令,這個過程叫作指令的編碼。CPU 執行程序的時候,就會解析指令,這個過程叫做指令的解碼。
現代大多數 CPU 都使用來流水線的方式來執行指令,所謂的流水線就是把一個任務拆分紅多個小任務,因而一條指令一般分爲 4 個階段,稱爲 4 級流水線,以下圖:
image
四個階段的具體含義:
上面這 4 個階段,咱們稱爲指令週期(Instrution Cycle)**,CPU 的工做就是一個週期接着一個週期,周而復始。
事實上,不一樣的階段實際上是由計算機中的不一樣組件完成的:
image
指令的類型
指令從功能角度劃分,能夠分爲 5 大類:
指令的執行速度
CPU 的硬件參數都會有 GHz 這個參數,好比一個 1 GHz 的 CPU,指的是時鐘頻率是 1 G,表明着 1 秒會產生 1G 次數的脈衝信號,每一次脈衝信號高低電平的轉換就是一個週期,稱爲時鐘週期。
對於 CPU 來講,在一個時鐘週期內,CPU 僅能完成一個最基本的動做,時鐘頻率越高,時鐘週期就越短,工做速度也就越快。
一個時鐘週期必定能執行完一條指令嗎?答案是不必定的,大多數指令不能在一個時鐘週期完成,一般須要若干個時鐘週期。不一樣的指令須要的時鐘週期是不一樣的,加法和乘法都對應着一條 CPU 指令,可是乘法須要的時鐘週期就要比加法多。
如何讓程序跑的更快?
程序執行的時候,耗費的 CPU 時間少就說明程序是快的,對於程序的 CPU 執行時間,咱們能夠拆解成 CPU 時鐘週期數(CPU Cycles)和時鐘週期時間(Clock Cycle Time)的乘積**。
image
時鐘週期時間就是咱們前面說起的 CPU 主頻,主頻越高說明 CPU 的工做速度就越快,好比我手頭上的電腦的 CPU 是 2.4 GHz 四核 Intel Core i5,這裏的 2.4 GHz 就是電腦的主頻,時鐘週期時間就是 1/2.4G。
要想 CPU 跑的更快,天然縮短時鐘週期時間,也就是提高 CPU 主頻,可是今非彼日,摩爾定律早已失效,當今的 CPU 主頻已經很難再作到翻倍的效果了。
另外,換一個更好的 CPU,這個也是咱們軟件工程師控制不了的事情,咱們應該把目光放到另一個乘法因子 —— CPU 時鐘週期數,若是能減小程序所需的 CPU 時鐘週期數量,同樣也是能提高程序的性能的。
對於 CPU 時鐘週期數咱們能夠進一步拆解成:「指令數 x 每條指令的平均時鐘週期數(Cycles Per Instruction,簡稱 CPI)**」,因而程序的 CPU 執行時間的公式可變成以下:
image
所以,要想程序跑的更快,優化這三者便可:
不少廠商爲了跑分而跑分,基本都是在這三個方面入手的哦,特別是超頻這一塊。
總結
最後咱們再來回答開頭的問題。
64 位相比 32 位 CPU 的優點在哪嗎?64 位 CPU 的計算性能必定比 32 位 CPU 高不少嗎?
64 位相比 32 位 CPU 的優點主要體如今兩個方面:
你知道軟件的 32 位和 64 位之間的區別嗎?再來 32 位的操做系統能夠運行在 64 位的電腦上嗎?64 位的操做系統能夠運行在 32 位的電腦上嗎?若是不行,緣由是什麼?
64 位和 32 位軟件,實際上表明指令是 64 位仍是 32 位的:
總之,硬件的 64 位和 32 位指的是 CPU 的位寬,軟件的 64 位和 32 位指的是指令的位寬。
❤️若是你以爲這篇內容對你還蠻有幫助,我想邀請你幫我三個小忙:點贊,轉發,有大家的 『點贊和評論』,纔是我創造的動力。關注公衆號 『 Java鬥帝 』,不按期分享原創知識。同時能夠期待後續文章ing?