CPU 執行程序的祕密，藏在了這 15 張圖裏

時間 2021-02-13

標籤程序員編程數組函數性能優化編碼 spa 操作系統翻譯欄目快樂工作简体版

原文原文鏈接

前言程序員

代碼寫了那麼多，你知道 a = 1 + 2 這條代碼是怎麼被 CPU 執行的嗎？編程

軟件用了那麼多，你知道軟件的 32 位和 64 位之間的區別嗎？再來 32 位的操做系統能夠運行在 64 位的電腦上嗎？64 位的操做系統能夠運行在 32 位的電腦上嗎？若是不行，緣由是什麼？數組

CPU 看了那麼多，咱們都知道 CPU 一般分爲 32 位和 64 位，你知道 64 位相比 32 位 CPU 的優點在哪嗎？64 位 CPU 的計算性能必定比 32 位 CPU 高不少嗎？函數

不知道也不用慌張，接下來就按部就班的、一層一層的攻破這些問題。性能

image優化

正文編碼

圖靈機的工做方式spa

要想知道程序執行的原理，咱們能夠先從「圖靈機」提及，圖靈的基本思想是用機器來模擬人們用紙筆進行數學運算的過程，並且還定義了計算機由哪些部分組成，程序又是如何執行的。操作系統

圖靈機長什麼樣子呢？你從下圖能夠看到圖靈機的實際樣子：翻譯

image

<figcaption >圖來源自：http://www.kristergustafsson.me/turing-machine/</figcaption>

圖靈機的基本組成以下：

有一條「紙帶」，紙帶由一個個連續的格子組成，每一個格子能夠寫入字符，紙帶就比如內存，而紙帶上的格子的字符就比如內存中的數據或程序；
有一個「讀寫頭」，讀寫頭能夠讀取紙帶上任意格子的字符，也能夠把字符寫入到紙帶的格子；
讀寫頭上有一些部件，好比存儲單元、控制單元以及運算單元：一、存儲單元用於存放數據；二、控制單元用於識別字符是數據仍是指令，以及控制程序的流程等；三、運算單元用於執行運算指令；

知道了圖靈機的組成後，咱們以簡單數學運算的 1 + 2 做爲例子，來看看它是怎麼執行這行代碼的。

首先，用讀寫頭把「一、二、+」這 3 個字符分別寫入到紙帶上的 3 個格子，而後讀寫頭先停在 1 字符對應的格子上；

image

接着，讀寫頭讀入 1 到存儲設備中，這個存儲設備稱爲圖靈機的狀態；

image

而後讀寫頭向右移動一個格，用一樣的方式把 2 讀入到圖靈機的狀態，因而如今圖靈機的狀態中存儲着兩個連續的數字， 1 和 2；

image

讀寫頭再往右移動一個格，就會碰到 + 號，讀寫頭讀到 + 號後，將 + 號傳輸給「控制單元」，控制單元發現是一個 + 號而不是數字，因此沒有存入到狀態中，由於 + 號是運算符指令，做用是加和目前的狀態，因而通知「運算單元」工做。運算單元收到要加和狀態中的值的通知後，就會把狀態中的 1 和 2 讀入並計算，再將計算的結果 3 存放到狀態中；

image

最後，運算單元將結果返回給控制單元，控制單元將結果傳輸給讀寫頭，讀寫頭向右移動，把結果 3 寫入到紙帶的格子中；

image

經過上面的圖靈機計算 1 + 2 的過程，能夠發現圖靈機主要功能就是讀取紙帶格子中的內容，而後交給控制單元識別字符是數字仍是運算符指令，若是是數字則存入到圖靈機狀態中，若是是運算符，則通知運算符單元讀取狀態中的數值進行計算，計算結果最終返回給讀寫頭，讀寫頭把結果寫入到紙帶的格子中。

事實上，圖靈機這個看起來很簡單的工做方式，和咱們今天的計算機是基本同樣的。接下來，咱們一同再看看當今計算機的組成以及工做方式。

馮諾依曼模型

在 1945 年馮諾依曼和其餘計算機科學家們提出了計算機具體實現的報告，其遵循了圖靈機的設計，並且還提出用電子元件構造計算機，並約定了用二進制進行計算和存儲，還定義計算機基本結構爲 5 個部分，分別是中央處理器（CPU）、內存、輸入設備、輸出設備、總線。

image

這 5 個部分也被稱爲馮諾依曼模型，接下來看看這 5 個部分的具體做用。

內存

咱們的程序和數據都是存儲在內存，存儲的區域是線性的。

數據存儲的單位是一個二進制位（bit），即 0 或 1。最小的存儲單位是字節（byte）**，1 字節等於 8 位。

內存的地址是從 0 開始編號的，而後自增排列，最後一個地址爲內存總字節數 - 1，這種結構好似咱們程序裏的數組，因此內存的讀寫任何一個數據的速度都是同樣的。

中央處理器

中央處理器也就是咱們常說的 CPU，32 位和 64 位 CPU 最主要區別在於一次能計算多少字節數據：

32 位 CPU 一次能夠計算 4 個字節；
64 位 CPU 一次能夠計算 8 個字節；

這裏的 32 位和 64 位，一般稱爲 CPU 的位寬。

之因此 CPU 要這樣設計，是爲了能計算更大的數值，若是是 8 位的 CPU，那麼一次只能計算 1 個字節 0~255 範圍內的數值，這樣就沒法一次完成計算 10000 * 500 ，因而爲了能一次計算大數的運算，CPU 須要支持多個 byte 一塊兒計算，因此 CPU 位寬越大，能夠計算的數值就越大，好比說 32 位 CPU 能計算的最大整數是4294967295。

CPU 內部還有一些組件，常見的有寄存器、控制單元和邏輯運算單元等。其中，控制單元負責控制 CPU 工做，邏輯運算單元負責計算，而寄存器能夠分爲多種類，每種寄存器的功能又不盡相同。

CPU 中的寄存器主要做用是存儲計算時的數據，你可能好奇爲何有了內存還須要寄存器？緣由很簡單，由於內存離 CPU 太遠了，而寄存器就在 CPU 裏，還緊挨着控制單元和邏輯運算單元，天然計算時速度會很快。

常見的寄存器種類：

通用寄存器，用來存放須要進行運算的數據，好比須要進行加和運算的兩個數據。
程序計數器，用來存儲 CPU 要執行下一條指令「所在的內存地址」，注意不是存儲了下一條要執行的指令，此時指令還在內存中，程序計數器只是存儲了下一條指令的地址。
指令寄存器，用來存放程序計數器指向的指令，也就是指令自己，指令被執行完成以前，指令都存儲在這裏。

總線

總線是用於 CPU 和內存以及其餘設備之間的通訊，總線可分爲 3 種：

地址總線，用於指定 CPU 將要操做的內存地址；
數據總線，用於讀寫內存的數據；
控制總線，用於發送和接收信號，好比中斷、設備復位等信號，CPU 收到信號後天然進行響應，這時也須要控制總線；

當 CPU 要讀寫內存數據的時候，通常須要經過兩個總線：

首先要經過「地址總線」來指定內存的地址；
再經過「數據總線」來傳輸數據；

輸入、輸出設備

輸入設備向計算機輸入數據，計算機通過計算後，把數據輸出給輸出設備。期間，若是輸入設備是鍵盤，按下按鍵時是須要和 CPU 進行交互的，這時就須要用到控制總線了。

線路位寬與 CPU 位寬

數據是如何經過地址總線傳輸的呢？實際上是經過操做電壓，低電壓表示 0，高壓電壓則表示 1。

若是構造了高低高這樣的信號，其實就是 101 二進制數據，十進制則表示 5，若是隻有一條線路，就意味着每次只能傳遞 1 bit 的數據，即 0 或 1，那麼傳輸 101 這個數據，就須要 3 次才能傳輸完成，這樣的效率很是低。

這樣一位一位傳輸的方式，稱爲串行，下一個 bit 必須等待上一個 bit 傳輸完成才能進行傳輸。固然，想一次多傳一些數據，增長線路便可，這時數據就能夠並行傳輸。

爲了不低效率的串行傳輸的方式，線路的位寬最好一次就能訪問到全部的內存地址。CPU 要想操做的內存地址就須要地址總線，若是地址總線只有 1 條，那每次只能表示「0 或 1」這兩種狀況，因此 CPU 一次只能操做 2 個內存地址；若是想要 CPU 操做 4G 的內存，那麼就須要 32 條地址總線，由於 2 ^ 32 = 4G。

知道了線路位寬的意義後，咱們再來看看 CPU 位寬。

CPU 的位寬最好不要小於線路位寬，好比 32 位 CPU 控制 40 位寬的地址總線和數據總線的話，工做起來就會很是複雜且麻煩，因此 32 位的 CPU 最好和 32 位寬的線路搭配，由於 32 位 CPU 一次最多隻能操做 32 位寬的地址總線和數據總線。

若是用 32 位 CPU 去加和兩個 64 位大小的數字，就須要把這 2 個 64 位的數字分紅 2 個低位 32 位數字和 2 個高位 32 位數字來計算，先加個兩個低位的 32 位數字，算出進位，而後加和兩個高位的 32 位數字，最後再加上進位，就能算出結果了，能夠發現 32 位 CPU 並不能一次性計算出加和兩個 64 位數字的結果。

對於 64 位 CPU 就能夠一次性算出加和兩個 64 位數字的結果，由於 64 位 CPU 能夠一次讀入 64 位的數字，而且 64 位 CPU 內部的邏輯運算單元也支持 64 位數字的計算。

可是並不表明 64 位 CPU 性能比 32 位 CPU 高不少，不多應用須要算超過 32 位的數字，因此若是計算的數額不超過 32 位數字的狀況下，32 位和 64 位 CPU 之間沒什麼區別的，只有當計算超過 32 位數字的狀況下，64 位的優點才能體現出來。

另外，32 位 CPU 最大隻能操做 4GB 內存，就算你裝了 8 GB 內存條，也沒用。而 64 位 CPU 尋址範圍則很大，理論最大的尋址空間爲 2^64。

程序執行的基本過程

在前面，咱們知道了程序在圖靈機的執行過程，接下來咱們來看看程序在馮諾依曼模型上是怎麼執行的。

程序其實是一條一條指令，因此程序的運行過程就是把每一條指令一步一步的執行起來，負責執行指令的就是 CPU 了。

image

那 CPU 執行程序的過程以下：

第一步，CPU 讀取「程序計數器」的值，這個值是指令的內存地址，而後 CPU 的「控制單元」操做「地址總線」指定須要訪問的內存地址，接着通知內存設備準備數據，數據準備好後經過「數據總線」將指令數據傳給 CPU，CPU 收到內存傳來的數據後，將這個指令數據存入到「指令寄存器」。
第二步，CPU 分析「指令寄存器」中的指令，肯定指令的類型和參數，若是是計算類型的指令，就把指令交給「邏輯運算單元」運算；若是是存儲類型的指令，則交由「控制單元」執行；
第三步，CPU 執行完指令後，「程序計數器」的值自增，表示指向下一條指令。這個自增的大小，由 CPU 的位寬決定，好比 32 位的 CPU，指令是 4 個字節，須要 4 個內存地址存放，所以「程序計數器」的值會自增 4；

簡單總結一下就是，一個程序執行的時候，CPU 會根據程序計數器裏的內存地址，從內存裏面把須要執行的指令讀取到指令寄存器裏面執行，而後根據指令長度自增，開始順序讀取下一條指令。

CPU 從程序計數器讀取指令、到執行、再到下一條指令，這個過程會不斷循環，直到程序執行結束，這個不斷循環的過程被稱爲 CPU 的指令週期。

a = 1 + 2 執行具體過程

知道了基本的程序執行過程後，接下來用 a = 1 + 2 的做爲例子，進一步分析該程序在馮諾伊曼模型的執行過程。

CPU 是不認識 a = 1 + 2 這個字符串，這些字符串只是方便咱們程序員認識，要想這段程序能跑起來，還須要把整個程序翻譯成彙編語言的程序，這個過程稱爲編譯成彙編代碼。

針對彙編代碼，咱們還須要用匯編器翻譯成機器碼，這些機器碼由 0 和 1 組成的機器語言，這一條條機器碼，就是一條條的計算機指令，這個纔是 CPU 可以真正認識的東西。

下面來看看 a = 1 + 2 在 32 位 CPU 的執行過程。

程序編譯過程當中，編譯器經過分析代碼，發現 1 和 2 是數據，因而程序運行時，內存會有個專門的區域來存放這些數據，這個區域就是「數據段」。以下圖，數據 1 和 2 的區域位置：

數據 1 被存放到 0x100 位置；
數據 2 被存放到 0x104 位置；

注意，數據和指令是分開區域存放的，存放指令區域的地方稱爲「正文段」。

image

編譯器會把 a = 1 + 2 翻譯成 4 條指令，存放到正文段中。如圖，這 4 條指令被存放到了 0x200 ~ 0x20c 的區域中：

0x200 的內容是 load 指令將 0x100 地址中的數據 1 裝入到寄存器 R0；
0x204 的內容是 load 指令將 0x104 地址中的數據 2 裝入到寄存器 R1；
0x208 的內容是 add 指令將寄存器 R0 和 R1 的數據相加，並把結果存放到寄存器 R2；
0x20c 的內容是 store 指令將寄存器 R2 中的數據存回數據段中的 0x108 地址中，這個地址也就是變量 a 內存中的地址；

編譯完成後，具體執行程序的時候，程序計數器會被設置爲 0x200 地址，而後依次執行這 4 條指令。

上面的例子中，因爲是在 32 位 CPU 執行的，所以一條指令是佔 32 位大小，因此你會發現每條指令間隔 4 個字節。

而數據的大小是根據你在程序中指定的變量類型，好比 int 類型的數據則佔 4 個字節，char 類型的數據則佔 1 個字節。

指令

上面的例子中，圖中指令的內容我寫的是簡易的彙編代碼，目的是爲了方便理解指令的具體內容，事實上指令的內容是一串二進制數字的機器碼，每條指令都有對應的機器碼，CPU 經過解析機器碼來知道指令的內容。

不一樣的 CPU 有不一樣的指令集，也就是對應着不一樣的彙編語言和不一樣的機器碼，接下來選用最簡單的 MIPS 指集，來看看機器碼是如何生成的，這樣也能明白二進制的機器碼的具體含義。

MIPS 的指令是一個 32 位的整數，高 6 位表明着操做碼，表示這條指令是一條什麼樣的指令，剩下的 26 位不一樣指令類型所表示的內容也就不相同，主要有三種類型R、I 和 J。

image

一塊兒具體看看這三種類型的含義：

R 指令，用在算術和邏輯操做，裏面由讀取和寫入數據的寄存器地址。若是是邏輯位移操做，後面還有位移操做的「位移量」，而最後的「功能碼」則是再前面的操做碼不夠的時候，擴展操做碼來表示對應的具體指令的；
I 指令，用在數據傳輸、條件分支等。這個類型的指令，就沒有了位移量和操做碼，也沒有了第三個寄存器，而是把這三部分直接合併成了一個地址值或一個常數；
J 指令，用在跳轉，高 6 位以外的 26 位都是一個跳轉後的地址；

接下來，咱們把前面例子的這條指令：「add 指令將寄存器 R0 和 R1 的數據相加，並把結果放入到 R3」，翻譯成機器碼。

image

加和運算 add 指令是屬於 R 指令類型：

add 對應的 MIPS 指令裏操做碼是 000000，以及最末尾的功能碼是100000，這些數值都是固定的，查一下 MIPS 指令集的手冊就能知道的；
rs 表明第一個寄存器 R0 的編號，即 00000；
rt 表明第二個寄存器 R1 的編號，即 00001；
rd 表明目標的臨時寄存器 R2 的編號，即 00010；
由於不是位移操做，因此位移量是 00000

把上面這些數字拼在一塊兒就是一條 32 位的 MIPS 加法指令了，那麼用 16 進製表示的機器碼則是 0x00011020。

編譯器在編譯程序的時候，會構造指令，這個過程叫作指令的編碼。CPU 執行程序的時候，就會解析指令，這個過程叫做指令的解碼。

現代大多數 CPU 都使用來流水線的方式來執行指令，所謂的流水線就是把一個任務拆分紅多個小任務，因而一條指令一般分爲 4 個階段，稱爲 4 級流水線，以下圖：

image

四個階段的具體含義：

CPU 經過程序計數器讀取對應內存地址的指令，這個部分稱爲 Fetch（取得指令）；
CPU 對指令進行解碼，這個部分稱爲 Decode（指令譯碼）；
CPU 執行指令，這個部分稱爲 Execution（執行指令）；
CPU 將計算結果存回寄存器或者將寄存器的值存入內存，這個部分稱爲Store（數據回寫）；

上面這 4 個階段，咱們稱爲指令週期（Instrution Cycle）**，CPU 的工做就是一個週期接着一個週期，周而復始。

事實上，不一樣的階段實際上是由計算機中的不一樣組件完成的：

image

取指令的階段，咱們的指令是存放在存儲器裏的，實際上，經過程序計數器和指令寄存器取出指令的過程，是由控制器操做的；
指令的譯碼過程，也是由控制器進行的；
指令執行的過程，不管是進行算術操做、邏輯操做，仍是進行數據傳輸、條件分支操做，都是由算術邏輯單元操做的，也就是由運算器處理的。可是若是是一個簡單的無條件地址跳轉，則是直接在控制器裏面完成的，不須要用到運算器。

指令的類型

指令從功能角度劃分，能夠分爲 5 大類：

數據傳輸類型的指令，好比 store/load 是寄存器與內存間數據傳輸的指令，mov 是將一個內存地址的數據移動到另外一個內存地址的指令；
運算類型的指令，好比加減乘除、位運算、比較大小等等，它們最多隻能處理兩個寄存器中的數據；
跳轉類型的指令，經過修改程序計數器的值來達到跳轉執行指令的過程，好比編程中常見的 if-else、swtich-case、函數調用等。
信號類型的指令，好比發生中斷的指令 trap；
閒置類型的指令，好比指令 nop，執行後 CPU 會空轉一個週期；

指令的執行速度

CPU 的硬件參數都會有 GHz 這個參數，好比一個 1 GHz 的 CPU，指的是時鐘頻率是 1 G，表明着 1 秒會產生 1G 次數的脈衝信號，每一次脈衝信號高低電平的轉換就是一個週期，稱爲時鐘週期。

對於 CPU 來講，在一個時鐘週期內，CPU 僅能完成一個最基本的動做，時鐘頻率越高，時鐘週期就越短，工做速度也就越快。

一個時鐘週期必定能執行完一條指令嗎？答案是不必定的，大多數指令不能在一個時鐘週期完成，一般須要若干個時鐘週期。不一樣的指令須要的時鐘週期是不一樣的，加法和乘法都對應着一條 CPU 指令，可是乘法須要的時鐘週期就要比加法多。

如何讓程序跑的更快？

程序執行的時候，耗費的 CPU 時間少就說明程序是快的，對於程序的 CPU 執行時間，咱們能夠拆解成 CPU 時鐘週期數（CPU Cycles）和時鐘週期時間（Clock Cycle Time）的乘積**。

image

時鐘週期時間就是咱們前面說起的 CPU 主頻，主頻越高說明 CPU 的工做速度就越快，好比我手頭上的電腦的 CPU 是 2.4 GHz 四核 Intel Core i5，這裏的 2.4 GHz 就是電腦的主頻，時鐘週期時間就是 1/2.4G。

要想 CPU 跑的更快，天然縮短時鐘週期時間，也就是提高 CPU 主頻，可是今非彼日，摩爾定律早已失效，當今的 CPU 主頻已經很難再作到翻倍的效果了。

另外，換一個更好的 CPU，這個也是咱們軟件工程師控制不了的事情，咱們應該把目光放到另一個乘法因子 —— CPU 時鐘週期數，若是能減小程序所需的 CPU 時鐘週期數量，同樣也是能提高程序的性能的。

對於 CPU 時鐘週期數咱們能夠進一步拆解成：「指令數 x 每條指令的平均時鐘週期數（Cycles Per Instruction，簡稱 CPI）**」，因而程序的 CPU 執行時間的公式可變成以下：

image

所以，要想程序跑的更快，優化這三者便可：

指令數，表示執行程序所須要多少條指令，以及哪些指令。這個層面是基本靠編譯器來優化，畢竟一樣的代碼，在不一樣的編譯器，編譯出來的計算機指令會有各類不一樣的表示方式。
每條指令的平均時鐘週期數 CPI，表示一條指令須要多少個時鐘週期數，現代大多數 CPU 經過流水線技術（Pipline），讓一條指令須要的 CPU 時鐘週期數儘量的少；
時鐘週期時間，表示計算機主頻，取決於計算機硬件。有的 CPU 支持超頻技術，打開了超頻意味着把 CPU 內部的時鐘給調快了，因而 CPU 工做速度就變快了，可是也是有代價的，CPU 跑的越快，散熱的壓力就會越大，CPU 會很容易奔潰。

不少廠商爲了跑分而跑分，基本都是在這三個方面入手的哦，特別是超頻這一塊。

總結

最後咱們再來回答開頭的問題。

64 位相比 32 位 CPU 的優點在哪嗎？64 位 CPU 的計算性能必定比 32 位 CPU 高不少嗎？

64 位相比 32 位 CPU 的優點主要體如今兩個方面：

64 位 CPU 能夠一次計算超過 32 位的數字，而 32 位 CPU 若是要計算超過 32 位的數字，要分多步驟進行計算，效率就沒那麼高，可是大部分應用程序不多會計算那麼大的數字，因此只有運算大數字的時候，64 位 CPU 的優點才能體現出來，不然和 32 位 CPU 的計算性能相差不大。
64 位 CPU 能夠尋址更大的內存空間，32 位 CPU 最大的尋址地址是 4G，即便你加了 8G 大小的內存，也仍是隻能尋址到 4G，而 64 位 CPU 最大尋址地址是 2^64，遠超於 32 位 CPU 最大尋址地址的 2^32。

你知道軟件的 32 位和 64 位之間的區別嗎？再來 32 位的操做系統能夠運行在 64 位的電腦上嗎？64 位的操做系統能夠運行在 32 位的電腦上嗎？若是不行，緣由是什麼？

64 位和 32 位軟件，實際上表明指令是 64 位仍是 32 位的：

若是 32 位指令在 64 位機器上執行，須要一套兼容機制，就能夠作到兼容運行了。可是若是 64 位指令在 32 位機器上執行，就比較困難了，由於 32 位的寄存器存不下 64 位的指令；
操做系統其實也是一種程序，咱們也會看到操做系統會分紅 32 位操做系統、64 位操做系統，其表明意義就是操做系統中程序的指令是多少位，好比 64 位操做系統，指令也就是 64 位，所以不能裝在 32 位機器上。

總之，硬件的 64 位和 32 位指的是 CPU 的位寬，軟件的 64 位和 32 位指的是指令的位寬。