先來看看一則小故事算法
咱們寫好的一行行代碼,爲了讓其工做起來,咱們還得把它送進城(進程)裏,那既然進了城裏,那確定不能胡做非爲了。緩存
城裏人有城裏人的規矩,城中有個專門管轄大家的城管(操做系統),人家讓你休息就休息,讓你工做就工做,畢竟攤位很少,每一個人都要佔這個攤位來工做,城裏要工做的人多着去了。數據結構
因此城管爲了公平起見,它使用一種策略(調度)方式,給每一個人一個固定的工做時間(時間片),時間到了就會通知你去休息而換另一我的上場工做。多線程
另外,在休息時候你也不能偷懶,要記住工做到哪了,否則下次到你工做了,你忘記工做到哪了,那還怎麼繼續?併發
有的人,可能還進入了縣城(線程)工做,這裏相對輕鬆一些,在休息的時候,要記住的東西相對較少,並且還能共享城裏的資源。app
「哎喲,難道本文內容是進程和線程?」函數
能夠,聰明的你猜出來了,也不枉費我瞎編亂造的故事了。工具
進程和線程對於寫代碼的咱們,真的每天見、日日見了,但見的多不表明你就熟悉它們,好比簡單問你一句,你知道它們的工做原理和區別嗎?spa
不知道不要緊,今天就要跟你們討論操做系統的進程和線程。操作系統
咱們編寫的代碼只是一個存儲在硬盤的靜態文件,經過編譯後就會生成二進制可執行文件,當咱們運行這個可執行文件後,它會被裝載到內存中,接着 CPU 會執行程序中的每一條指令,那麼這個運行中的程序,就被稱爲「進程」。
如今咱們考慮有一個會讀取硬盤文件數據的程序被執行了,那麼當運行到讀取文件的指令時,就會去從硬盤讀取數據,可是硬盤的讀寫速度是很是慢的,那麼在這個時候,若是 CPU 傻傻的等硬盤返回數據的話,那 CPU 的利用率是很是低的。
作個類比,你去煮開水時,你會傻傻的等水壺燒開嗎?很明顯,小孩也不會傻等。咱們能夠在水壺燒開以前去作其餘事情。當水壺燒開了,咱們天然就會聽到「嘀嘀嘀」的聲音,因而再把燒開的水倒入到水杯裏就行了。
因此,當進程要從硬盤讀取數據時,CPU 不須要阻塞等待數據的返回,而是去執行另外的進程。當硬盤數據返回時,CPU 會收到個中斷,因而 CPU 再繼續運行這個進程。
這種多個程序、交替執行的思想,就有 CPU 管理多個進程的初步想法。
對於一個支持多進程的系統,CPU 會從一個進程快速切換至另外一個進程,其間每一個進程各運行幾十或幾百個毫秒。
雖然單核的 CPU 在某一個瞬間,只能運行一個進程。但在 1 秒鐘期間,它可能會運行多個進程,這樣就產生並行的錯覺,實際上這是併發。
併發和並行有什麼區別?
一圖勝千言。
進程與程序的關係的類比
到了晚飯時間,一對小情侶肚子都咕咕叫了,因而男生見機行事,就想給女生作晚飯,因此他就在網上找了辣子雞的菜譜,接着買了一些雞肉、辣椒、香料等材料,而後邊看邊學邊作這道菜。
忽然,女生說她想喝可樂,那麼男生只好把作菜的事情暫停一下,並在手機菜譜標記作到哪個步驟,把狀態信息記錄了下來。
而後男生遵從女生的指令,跑去下樓買了一瓶冰可樂後,又回到廚房繼續作菜。
這體現了,CPU 能夠從一個進程(作菜)切換到另一個進程(買可樂),在切換前必需要記錄當前進程中運行的狀態信息,以備下次切換回來的時候能夠恢復執行。
因此,能夠發現進程有着「運行 - 暫停 - 運行」的活動規律。
在上面,咱們知道了進程有着「運行 - 暫停 - 運行」的活動規律。通常說來,一個進程並非自始至終連續不停地運行的,它與併發執行中的其餘進程的執行是相互制約的。
它有時處於運行狀態,有時又因爲某種緣由而暫停運行處於等待狀態,當使它暫停的緣由消失後,它又進入準備運行狀態。
因此,在一個進程的活動期間至少具有三種基本狀態,即運行狀態、就緒狀態、阻塞狀態。
上圖中各個狀態的意義:
固然,進程另外兩個基本狀態:
因而,一個完整的進程狀態的變遷以下圖:
再來詳細說明一下進程的狀態變遷:
若是有大量處於阻塞狀態的進程,進程可能會佔用着物理內存空間,顯然不是咱們所但願的,畢竟物理內存空間是有限的,被阻塞狀態的進程佔用着物理內存就一種浪費物理內存的行爲。
因此,在虛擬內存管理的操做系統中,一般會把阻塞狀態的進程的物理內存空間換出到硬盤,等須要再次運行的時候,再從硬盤換入到物理內存。
那麼,就須要一個新的狀態,來描述進程沒有佔用實際的物理內存空間的狀況,這個狀態就是掛起狀態。這跟阻塞狀態是不同,阻塞狀態是等待某個事件的返回。
另外,掛起狀態能夠分爲兩種:
這兩種掛起狀態加上前面的五種狀態,就變成了七種狀態變遷(留給個人顏色很少了),見以下圖:
致使進程掛起的緣由不僅是由於進程所使用的內存空間不在物理內存,還包括以下狀況:
Ctrl+Z
掛起進程;在操做系統中,是用進程控制塊(process control block,PCB)數據結構來描述進程的。
那 PCB 是什麼呢?打開知乎搜索你就會發現這個東西並非那麼簡單。
打住打住,咱們是個正經的人,怎麼會去看那些問題呢?是吧,回來回來。
PCB 是進程存在的惟一標識,這意味着一個進程的存在,必然會有一個 PCB,若是進程消失了,那麼 PCB 也會隨之消失。
PCB 具體包含什麼信息呢?
進程描述信息:
進程控制和管理信息:
資源分配清單:
CPU 相關信息:
可見,PCB 包含信息仍是比較多的。
每一個 PCB 是如何組織的呢?
一般是經過鏈表的方式進行組織,把具備相同狀態的進程鏈在一塊兒,組成各類隊列。好比:
那麼,就緒隊列和阻塞隊列鏈表的組織形式以下圖:
除了連接的組織方式,還有索引方式,它的工做原理:將同一狀態的進程組織在一個索引表中,索引表項指向相應的 PCB,不一樣狀態對應不一樣的索引表。
通常會選擇鏈表,由於可能面臨進程建立,銷燬等調度致使進程狀態發生變化,因此鏈表可以更加靈活的插入和刪除。
咱們熟知了進程的狀態變遷和進程的數據結構 PCB 後,再來看看進程的建立、終止、阻塞、喚醒的過程,這些過程也就是進程的控制。
01 建立進程
操做系統容許一個進程建立另外一個進程,並且容許子進程繼承父進程所擁有的資源,當子進程被終止時,其在父進程處繼承的資源應當還給父進程。同時,終止父進程時同時也會終止其全部的子進程。
建立進程的過程以下:
02 終止進程
進程能夠有 3 種終止方式:正常結束、異常結束以及外界干預(信號 kill
掉)。
終止進程的過程以下:
03 阻塞進程
當進程須要等待某一事件完成時,它能夠調用阻塞語句把本身阻塞等待。而一旦被阻塞等待,它只能由另外一個進程喚醒。
阻塞進程的過程以下:
04 喚醒進程
進程由「運行」轉變爲「阻塞」狀態是因爲進程必須等待某一事件的完成,因此處於阻塞狀態的進程是絕對不可能叫醒本身的。
若是某進程正在等待 I/O 事件,需由別的進程發消息給它,則只有當該進程所期待的事件出現時,才由發現者進程用喚醒語句叫醒它。
喚醒進程的過程以下:
進程的阻塞和喚醒是一對功能相反的語句,若是某個進程調用了阻塞語句,則必有一個與之對應的喚醒語句。
各個進程之間是共享 CPU 資源的,在不一樣的時候進程之間須要切換,讓不一樣的進程能夠在 CPU 執行,那麼這個一個進程切換到另外一個進程運行,稱爲進程的上下文切換。
在詳細說進程上下文切換前,咱們先來看看 CPU 上下文切換
大多數操做系統都是多任務,一般支持大於 CPU 數量的任務同時運行。實際上,這些任務並非同時運行的,只是由於系統在很短的時間內,讓各個任務分別在 CPU 運行,因而就形成同時運行的錯覺。
任務是交給 CPU 運行的,那麼在每一個任務運行前,CPU 須要知道任務從哪裏加載,又從哪裏開始運行。
因此,操做系統須要事先幫 CPU 設置好 CPU 寄存器和程序計數器。
CPU 寄存器是 CPU 內部一個容量小,可是速度極快的內存(緩存)。我舉個例子,寄存器像是你的口袋,內存像你的書包,硬盤則是你家裏的櫃子,若是你的東西存放到口袋,那確定是比你從書包或家裏櫃子取出來要快的多。
再來,程序計數器則是用來存儲 CPU 正在執行的指令位置、或者即將執行的下一條指令位置。
因此說,CPU 寄存器和程序計數是 CPU 在運行任何任務前,所必須依賴的環境,這些環境就叫作 CPU 上下文。
既然知道了什麼是 CPU 上下文,那理解 CPU 上下文切換就不難了。
CPU 上下文切換就是先把前一個任務的 CPU 上下文(CPU 寄存器和程序計數器)保存起來,而後加載新任務的上下文到這些寄存器和程序計數器,最後再跳轉到程序計數器所指的新位置,運行新任務。
系統內核會存儲保持下來的上下文信息,當此任務再次被分配給 CPU 運行時,CPU 會從新加載這些上下文,這樣就能保證任務原來的狀態不受影響,讓任務看起來仍是連續運行。
上面說到所謂的「任務」,主要包含進程、線程和中斷。因此,能夠根據任務的不一樣,把 CPU 上下文切換分紅:進程上下文切換、線程上下文切換和中斷上下文切換。
進程的上下文切換究竟是切換什麼呢?
進程是由內核管理和調度的,因此進程的切換隻能發生在內核態。
因此,進程的上下文切換不只包含了虛擬內存、棧、全局變量等用戶空間的資源,還包括了內核堆棧、寄存器等內核空間的資源。
一般,會把交換的信息保存在進程的 PCB,當要運行另一個進程的時候,咱們須要從這個進程的 PCB 取出上下文,而後恢復到 CPU 中,這使得這個進程能夠繼續執行,以下圖所示:
你們須要注意,進程的上下文開銷是很關鍵的,咱們但願它的開銷越小越好,這樣可使得進程能夠把更多時間花費在執行程序上,而不是耗費在上下文切換。
發生進程上下文切換有哪些場景?
以上,就是發生進程上下文切換的常見場景了。
在早期的操做系統中都是以進程做爲獨立運行的基本單位,直到後面,計算機科學家們又提出了更小的能獨立運行的基本單位,也就是線程。
咱們舉個例子,假設你要編寫一個視頻播放器軟件,那麼該軟件功能的核心模塊有三個:
對於單進程的實現方式,我想你們都會是如下這個方式:
對於單進程的這種方式,存在如下問題:
Read
的時候可能進程就等在這了,這樣就會致使等半天才進行數據解壓和播放;那改進成多進程的方式:
對於多進程的這種方式,依然會存在問題:
那到底如何解決呢?須要有一種新的實體,知足如下特性:
這個新的實體,就是線程( Thread ),線程之間能夠併發運行且共享相同的地址空間。
線程是進程當中的一條執行流程。
同一個進程內多個線程之間能夠共享代碼段、數據段、打開的文件等資源,但每一個線程都有獨立一套的寄存器和棧,這樣能夠確保線程的控制流是相對獨立的。
線程的優缺點?
線程的優勢:
線程的缺點:
舉個例子,對於遊戲的用戶設計,則不該該使用多線程的方式,不然一個用戶掛了,會影響其餘同個進程的線程。
線程與進程的比較以下:
對於,線程相比進程能減小開銷,體如今:
因此,線程比進程無論是時間效率,仍是空間效率都要高。
在前面咱們知道了,線程與進程最大的區別在於:線程是調度的基本單位,而進程則是資源擁有的基本單位。
因此,所謂操做系統的任務調度,實際上的調度對象是線程,而進程只是給線程提供了虛擬內存、全局變量等資源。
對於線程和進程,咱們能夠這麼理解:
另外,線程也有本身的私有數據,好比棧和寄存器等,這些在上下文切換時也是須要保存的。
線程上下文切換的是什麼?
這還得看線程是否是屬於同一個進程:
因此,線程的上下文切換相比進程,開銷要小不少。
主要有三種線程的實現方式:
那麼,這還須要考慮一個問題,用戶線程和內核線程的對應關係。
首先,第一種關係是多對一的關係,也就是多個用戶線程對應同一個內核線程:
第二種是一對一的關係,也就是一個用戶線程對應一個內核線程:
第三種是多對多的關係,也就是多個用戶線程對應到多個內核線程:
用戶線程如何理解?存在什麼優點和缺陷?
用戶線程是基於用戶態的線程管理庫來實現的,那麼線程控制塊(Thread Control Block, TCB) 也是在庫裏面來實現的,對於操做系統而言是看不到這個 TCB 的,它只能看到整個進程的 PCB。
因此,用戶線程的整個線程管理和調度,操做系統是不直接參與的,而是由用戶級線程庫函數來完成線程的管理,包括線程的建立、終止、同步和調度等。
用戶級線程的模型,也就相似前面提到的多對一的關係,即多個用戶線程對應同一個內核線程,以下圖所示:
用戶線程的優勢:
用戶線程的缺點:
以上,就是用戶線程的優缺點了。
那內核線程如何理解?存在什麼優點和缺陷?
內核線程是由操做系統管理的,線程對應的 TCB 天然是放在操做系統裏的,這樣線程的建立、終止和管理都是由操做系統負責。
內核線程的模型,也就相似前面提到的一對一的關係,即一個用戶線程對應一個內核線程,以下圖所示:
內核線程的優勢:
內核線程的缺點:
以上,就是內核線的優缺點了。
最後的輕量級進程如何理解?
輕量級進程(Light-weight process,LWP)是內核支持的用戶線程,一個進程可有一個或多個 LWP,每一個 LWP 是跟內核線程一對一映射的,也就是 LWP 都是由一個內核線程支持。
另外,LWP 只能由內核管理並像普通進程同樣被調度,Linux 內核是支持 LWP 的典型例子。
在大多數系統中,LWP與普通進程的區別也在於它只有一個最小的執行上下文和調度程序所需的統計信息。通常來講,一個進程表明程序的一個實例,而 LWP 表明程序的執行線程,由於一個執行線程不像進程那樣須要那麼多狀態信息,因此 LWP 也不帶有這樣的信息。
在 LWP 之上也是可使用用戶線程的,那麼 LWP 與用戶線程的對應關係就有三種:
1 : 1
,即一個 LWP 對應 一個用戶線程;N : 1
,即一個 LWP 對應多個用戶線程;N : N
,即多個 LMP 對應多個用戶線程;接下來針對上面這三種對應關係說明它們優缺點。先下圖的 LWP 模型:
1 : 1 模式
一個線程對應到一個 LWP 再對應到一個內核線程,如上圖的進程 4,屬於此模型。
N : 1 模式
多個用戶線程對應一個 LWP 再對應一個內核線程,如上圖的進程 2,線程管理是在用戶空間完成的,此模式中用戶的線程對操做系統不可見。
M : N 模式
根據前面的兩個模型混搭一塊兒,就造成 M:N
模型,該模型提供了兩級控制,首先多個用戶線程對應到多個 LWP,LWP 再一一對應到內核線程,如上圖的進程 3。
組合模式
如上圖的進程 5,此進程結合 1:1
模型和 M:N
模型。開發人員能夠針對不一樣的應用特色調節內核線程的數目來達到物理並行性和邏輯並行性的最佳方案。
進程都但願本身可以佔用 CPU 進行工做,那麼這涉及到前面說過的進程上下文切換。
一旦操做系統把進程切換到運行狀態,也就意味着該進程佔用着 CPU 在執行,可是當操做系統把進程切換到其餘狀態時,那就不能在 CPU 中執行了,因而操做系統會選擇下一個要運行的進程。
選擇一個進程運行這一功能是在操做系統中完成的,一般稱爲調度程序(scheduler)。
那到底何時調度進程,或以什麼原則來調度進程呢?
在進程的生命週期中,當進程從一個運行狀態到另一狀態變化的時候,其實會觸發一次調度。
好比,如下狀態的變化都會觸發操做系統的調度:
由於,這些狀態變化的時候,操做系統須要考慮是否要讓新的進程給 CPU 運行,或者是否讓當前進程從 CPU 上退出來而換另外一個進程運行。
另外,若是硬件時鐘提供某個頻率的週期性中斷,那麼能夠根據如何處理時鐘中斷
,把調度算法分爲兩類:
原則一:若是運行的程序,發生了 I/O 事件的請求,那 CPU 使用率必然會很低,由於此時進程在阻塞等待硬盤的數據返回。這樣的過程,勢必會形成 CPU 忽然的空閒。因此,爲了提升 CPU 利用率,在這種發送 I/O 事件導致 CPU 空閒的狀況下,調度程序須要從就緒隊列中選擇一個進程來運行。
原則二:有的程序執行某個任務花費的時間會比較長,若是這個程序一直佔用着 CPU,會形成系統吞吐量(CPU 在單位時間內完成的進程數量)的下降。因此,要提升系統的吞吐率,調度程序要權衡長任務和短任務進程的運行完成數量。
原則三:從進程開始到結束的過程當中,其實是包含兩個時間,分別是進程運行時間和進程等待時間,這兩個時間總和就稱爲週轉時間。進程的週轉時間越小越好,若是進程的等待時間很長而運行時間很短,那週轉時間就很長,這不是咱們所指望的,調度程序應該避免這種狀況發生。
原則四:處於就緒隊列的進程,也不能等過久,固然但願這個等待的時間越短越好,這樣可使得進程更快的在 CPU 中執行。因此,就緒隊列中進程的等待時間也是調度程序所須要考慮的原則。
原則五:對於鼠標、鍵盤這種交互式比較強的應用,咱們固然但願它的響應時間越快越好,不然就會影響用戶體驗了。因此,對於交互式比較強的應用,響應時間也是調度程序須要考慮的原則。
針對上面的五種調度原則,總結成以下:
說白了,這麼多調度原則,目的就是要使得進程要「快」。
不一樣的調度算法適用的場景也是不一樣的。
接下來,說說在單核 CPU 系統中常見的調度算法。
01 先來先服務調度算法
最簡單的一個調度算法,就是非搶佔式的先來先服務(First Come First Severd, FCFS)算法了。
顧名思義,先來後到,每次從就緒隊列選擇最早進入隊列的進程,而後一直運行,直到進程退出或被阻塞,纔會繼續從隊列中選擇第一個進程接着運行。
這彷佛很公平,可是當一個長做業先運行了,那麼後面的短做業等待的時間就會很長,不利於短做業。
FCFS 對長做業有利,適用於 CPU 繁忙型做業的系統,而不適用於 I/O 繁忙型做業的系統。
02 最短做業優先調度算法
最短做業優先(Shortest Job First, SJF)調度算法一樣也是顧名思義,它會優先選擇運行時間最短的進程來運行,這有助於提升系統的吞吐量。
這顯然對長做業不利,很容易形成一種極端現象。
好比,一個長做業在就緒隊列等待運行,而這個就緒隊列有很是多的短做業,那麼就會使得長做業不斷的日後推,週轉時間變長,導致長做業長期不會被運行。
03 高響應比優先調度算法
前面的「先來先服務調度算法」和「最短做業優先調度算法」都沒有很好的權衡短做業和長做業。
那麼,高響應比優先 (Highest Response Ratio Next, HRRN)調度算法主要是權衡了短做業和長做業。
每次進行進程調度時,先計算「響應比優先級」,而後把「響應比優先級」最高的進程投入運行,「響應比優先級」的計算公式:
從上面的公式,能夠發現:
04 時間片輪轉調度算法
最古老、最簡單、最公平且使用最廣的算法就是時間片輪轉(Round Robin, RR)調度算法。
。
每一個進程被分配一個時間段,稱爲時間片(Quantum),即容許該進程在該時間段中運行。
另外,時間片的長度就是一個很關鍵的點:
一般時間片設爲 20ms~50ms
一般是一個比較合理的折中值。
05 最高優先級調度算法
前面的「時間片輪轉算法」作了個假設,即讓全部的進程同等重要,也不偏袒誰,你們的運行時間都同樣。
可是,對於多用戶計算機系統就有不一樣的見解了,它們但願調度是有優先級的,即但願調度程序能從就緒隊列中選擇最高優先級的進程進行運行,這稱爲最高優先級(Highest Priority First,HPF)調度算法。
進程的優先級能夠分爲,靜態優先級或動態優先級:
該算法也有兩種處理優先級高的方法,非搶佔式和搶佔式:
可是依然有缺點,可能會致使低優先級的進程永遠不會運行。
06 多級反饋隊列調度算法
多級反饋隊列(Multilevel Feedback Queue)調度算法是「時間片輪轉算法」和「最高優先級算法」的綜合和發展。
顧名思義:
來看看,它是如何工做的:
能夠發現,對於短做業可能能夠在第一級隊列很快被處理完。對於長做業,若是在第一級隊列處理不完,能夠移入下次隊列等待被執行,雖然等待的時間變長了,可是運行時間也會更長了,因此該算法很好的兼顧了長短做業,同時有較好的響應時間。
看的迷迷糊糊?那我拿去銀行辦業務的例子,把上面的調度算法串起來,你還不懂,你錘我!
辦理業務的客戶至關於進程,銀行窗口工做人員至關於 CPU。
如今,假設這個銀行只有一個窗口(單核 CPU ),那麼工做人員一次只能處理一個業務。
那麼最簡單的處理方式,就是先來的先處理,後面來的就乖乖排隊,這就是先來先服務(FCFS)調度算法。可是萬一先來的這位老哥是來貸款的,這一談就好幾個小時,一直佔用着窗口,這樣後面的人只能乾等,或許後面的人只是想簡單的取個錢,幾分鐘就能搞定,卻由於前面老哥辦長業務而要等幾個小時,你說氣不氣人?
有客戶抱怨了,那咱們就要改進,咱們乾脆優先給那些幾分鐘就能搞定的人辦理業務,這就是短做業優先(SJF)調度算法。聽起來不錯,可是依然仍是有個極端狀況,萬一辦理短業務的人很是的多,這會致使長業務的人一直得不到服務,萬一這個長業務是個大客戶,那不就撿了芝麻丟了西瓜
那就公平起見,如今窗口工做人員規定,每一個人我只處理 10 分鐘。若是 10 分鐘以內處理完,就立刻換下一我的。若是沒處理完,依然換下一我的,可是客戶本身得記住辦理到哪一個步驟了。這個也就是時間片輪轉(RR)調度算法。可是若是時間片設置太短,那麼就會形成大量的上下文切換,增大了系統開銷。若是時間片過長,至關於退化成退化成 FCFS 算法了。
既然公平也可能存在問題,那銀行就對客戶分等級,分爲普通客戶、VIP 客戶、SVIP 客戶。只要高優先級的客戶一來,就第一時間處理這個客戶,這就是最高優先級(HPF)調度算法。但依然也會有極端的問題,萬一當天來的全是高級客戶,那普通客戶不是沒有被服務的機會,不把普通客戶當人是嗎?那咱們把優先級改爲動態的,若是客戶辦理業務時間增長,則下降其優先級,若是客戶等待時間增長,則升高其優先級。
那有沒有兼顧到公平和效率的方式呢?這裏介紹一種算法,考慮的還算充分的,多級反饋隊列(MFQ)調度算法,它是時間片輪轉算法和優先級算法的綜合和發展。它的工做方式:
能夠發現,對於要辦理短業務的客戶來講,能夠很快的輪到並解決。對於要辦理長業務的客戶,一會兒解決不了,就能夠放到下一個隊列,雖然等待的時間稍微變長了,可是輪到本身的辦理時間也變長了,也能夠接受,不會形成極端的現象,能夠說是綜合上面幾種算法的優勢。
其實,關於進程和線程的部分,小林周末就已經寫好了。
可是,寫到調度算法的時候,我就懵逼了,在想用什麼方式能更通俗易懂的表達這些晦澀難懂的算法,這一小結花了我很是多時間。唉,菜就是菜,小林我也不找藉口了。。。
小林是專爲你們圖解的工具人,Goodbye,咱們下次見!