併發編程之多進程理論

1、背景知識

  顧名思義,進程即正在執行的一個過程。進程是對正在運行程序的一個抽象。html

  進程的概念起源於操做系統,是操做系統最核心的概念,也是操做系統提供的最古老也是最重要的抽象概念之一。操做系統的其餘全部內容都是圍繞進程的概念展開的。python

  因此想要真正瞭解進程,必須事先了解操做系統,點擊進入
linux

PS:即便能夠利用的cpu只有一個(早期的計算機確實如此),也能保證支持(僞)併發的能力。將一個單獨的cpu變成多個虛擬的cpu(多道技術:時間多路複用和空間多路複用+硬件上支持隔離),沒有進程的抽象,現代計算機將不復存在。算法

2、什麼是進程

  進程:正在進行的一個過程或者說一個任務,負責執行任務的是cpu。編程

  舉例(單核+多道,實現多個進程的併發執行):windows

  在一個時間段內有不少任務要作:python備課的任務,寫書的任務,交女友的任務,王者榮耀上分的任務,但同一時刻只能作一個任務(cpu同一時間只能幹一個活),如何才能玩出多個任務併發執行的效果?備一會課,再去跟李傑的女友聊聊天,再去打一會王者榮耀....這就保證了每一個任務都在進行中.多線程

3、進程和程序的區別

  程序僅僅是一堆代碼,進程指的是程序的運行過程。
  以作蛋糕爲例的話:併發

  蛋糕食譜就是程序(適當形式描述的算法)
  蛋糕師就是處理器
  蛋糕的原料就是輸入的數據
  進程就是廚師閱讀食譜、取各類原料及烘製蛋糕等一系列動做的總和。app

注意:同一個程序執行兩次,那也是兩個進程,好比打開暴風影音同一個軟件,一個播放電影一個播放AV.異步

4、併發與並行

  不管是並行仍是併發,在用戶看來都是'同時'運行的,不論是進程仍是線程,都只是一個任務而已,真實幹活的是cpu,cpu來作這些任務,而一個cpu同一時刻只能執行一個任務。

  1、併發:僞並行,即看起來多個進程像在同時運行。單個cpu+多道技術可實現併發。

  2、並行:多個進程同時運行,只有具有多個cpu才能實現。

  單核下,能夠利用多道技術,多個核,每一個核也均可以利用多道技術多道技術是針對單核而言的)有四個核,六個任務,這樣同一時間有四個任務被執行,假設分別被分配給了cpu1,cpu2,cpu3,cpu4;一旦任務1遇到I/O就被迫中斷執行,此時任務5就拿到cpu1的時間片去執行,這就是單核下的多道技術。

  而一旦任務1的I/O結束了,操做系統會從新調用它(需知進程的調度、分配給哪一個cpu運行,由操做系統說了算),可能被分配給四個cpu中的任意一個去執行。

  

  全部現代計算機常常會在同一時間作不少件事,一個用戶的PC(不管是單cpu仍是多cpu),均可以同時運行多個任務(一個任務能夠理解爲一個進程)。

  多道技術概念回顧:內存中同時存入多道(多個)程序,cpu從一個進程快速切換到另一個,使每一個進程各自運行幾十或幾百毫秒,這樣,雖然在某一個瞬間,一個cpu只能執行一個任務,但在1秒內,cpu卻能夠運行多個進程,這就給人產生了並行的錯覺,即僞併發,以此來區分多處理器操做系統的真正硬件並行(多個cpu共享同一個物理內存)。

5、同步\異步和阻塞\非阻塞

  所謂同步,就是在發出一個功能調用時,在沒有獲得結果以前,該調用就不會返回。按照這個定義,其實絕大多數函數都是同步調用。可是通常而言,咱們在說同步、異步的時候,特指那些須要其餘部件協做或者須要必定時間完成的任務。

#舉例:
#1. multiprocessing.Pool下的apply #發起同步調用後,就在原地等着任務結束,根本不考慮任務是在計算仍是在io阻塞,總之就是一股腦地等任務結束
#2. concurrent.futures.ProcessPoolExecutor().submit(func,).result()
#3. concurrent.futures.ThreadPoolExecutor().submit(func,).result()

  異步的概念和同步相對。當一個異步功能調用發出後,調用者不能馬上獲得結果。當該異步功能完成後,經過狀態、通知或回調來通知調用者。若是異步功能用狀態來通知,那麼調用者就須要每隔必定時間檢查一次,效率就很低(有些初學多線程編程的人,總喜歡用一個循環去檢查某個變量的值,這實際上是一 種很嚴重的錯誤)。若是是使用通知的方式,效率則很高,由於異步功能幾乎不須要作額外的操做。至於回調函數,其實和通知沒太多區別。

#舉例:
#1. multiprocessing.Pool().apply_async() #發起異步調用後,並不會等待任務結束才返回,相反,會當即獲取一個臨時結果(並非最終的結果,多是封裝好的一個對象)。
#2. concurrent.futures.ProcessPoolExecutor(3).submit(func,)
#3. concurrent.futures.ThreadPoolExecutor(3).submit(func,)

  阻塞調用是指調用結果返回以前,當前線程會被掛起(如遇到io操做)。函數只有在獲得結果以後纔會將阻塞的線程激活。有人也許會把阻塞調用和同步調用等同起來,實際上他是不一樣的。對於同步調用來講,不少時候當前線程仍是激活的,只是從邏輯上當前函數沒有返回而已。

#舉例:
#1. 同步調用:apply一個累計1億次的任務,該調用會一直等待,直到任務返回結果爲止,但並未阻塞住(即使是被搶走cpu的執行權限,那也是處於就緒態);
#2. 阻塞調用:當socket工做在阻塞模式的時候,若是沒有數據的狀況下調用recv函數,則當前線程就會被掛起,直到有數據爲止。

  非阻塞和阻塞的概念相對應,指在不能馬上獲得結果以前也會馬上返回,同時該函數不會阻塞當前線程。

小結:

  1. 同步與異步針對的是函數/任務的調用方式:同步就是當一個進程發起一個函數(任務)調用的時候,一直等到函數(任務)完成,而進程繼續處於激活狀態。而異步狀況下是當一個進程發起一個函數(任務)調用的時候,不會等函數返回,而是繼續往下執行當,函數返回的時候經過狀態、通知、事件等方式通知進程任務完成。

  2. 阻塞與非阻塞針對的是進程或線程:阻塞是當請求不能知足的時候就將進程掛起,而非阻塞則不會阻塞當前進程。

6、進程的建立

  但凡硬件都須要操做系統去管理。有操做系統就有進程,須要有建立進程的方式。

(一)操做系統只爲一個應用程序設計:如微波爐一旦啓動,全部進程都已存在。

(二)對於通用程序,須要有系統容許過程當中建立或撤銷進程的能力:
  1.系統初始化
  2.運行一個進程的過程當中開啓一個子進程(subprocess模塊)。(併發)
  3.用戶交互請求,建立新進程
  4.批處理做業的初始化

一、新進程的建立

  新進程的建立都是由一個已經存在的進程執行了一個用於建立進程的系統調用而建立的:

  1.在UNIX中該系統調用是:fork  進程由操做系統管理。

  2.在windows中該系統調用是:CreateProcess

二、關於建立的子進程,UNIX和windows系統對比

  1.相同的是:進程建立後,父進程和子進程有各自不一樣的地址空間(多道技術要求物理層面實現進程之間內存的隔離),任何一個進程的在其地址空間中的修改都不會影響到另一個進程。

  2.不一樣的是:在UNIX中,子進程的初始地址空間是父進程的一個副本,提示:子進程和父進程是能夠有隻讀的共享內存區的。可是對於windows系統來講,從一開始父進程與子進程的地址空間就是不一樣的。

7、進程的終止

  一、正常退出(自願,如用戶點擊交互式頁面的叉號,或程序執行完畢調用發起系統調用正常退出,在linux中用exit,在windows中用ExitProcess)

  二、出錯退出(自願,python a.py中a.py不存在)

  三、嚴重錯誤(非自願,執行非法指令,如引用不存在的內存,1/0等,能夠捕捉異常,try...except...)

  四、被其餘進程殺死(非自願,如kill -9)

8、進程的層次結構

  相同點:不管UNIX仍是Windows,進程只有一個父進程。

  不一樣點:一、UNIX中全部的進程,都是以init進程爲根,組成樹形結構。父子進程共同組成一個進程組,當鍵盤發出一個信號時,該信號被送給當前與鍵盤相關的進程組中的全部成員。

      二、Windows中沒有進程層次概念,進程地位相同。建立進程時,父進程獲得句柄,能夠控制子進程,句柄能夠傳給其餘子進程,所以沒有層次。

9、進程的狀態

tail -f access.log |grep '404'

執行程序tail,開啓一個子進程,執行程序grep,開啓另一個子進程,兩個進程之間基於管道'|'通信,將tail的結果做爲grep的輸入。

進程grep在等待輸入(即I/O)時的狀態稱爲阻塞,此時grep命令都沒法運行

其實在兩種狀況下會致使一個進程在邏輯上不能運行,

  1. 進程掛起是自身緣由,遇到I/O阻塞,便要讓出CPU讓其餘進程去執行,這樣保證CPU一直在工做

  2. 與進程無關,是操做系統層面,可能會由於一個進程佔用時間過多,或者優先級等緣由,而調用其餘的進程去使用CPU。

於是一個進程由三種狀態

  

10、進程併發的實現

  硬件中斷一個正在運行的進程,把此時進程運行的全部狀態保存下來,爲此,操做系統維護一張表格,即進程表(process table),每一個進程佔用一個進程表項(這些表項也稱爲進程控制塊)。

  表存放了進程狀態的重要信息:程序計數器、堆棧指針、內存分配情況、全部打開文件的狀態、賬號和調度信息,以及其餘在進程由運行態轉爲就緒態或阻塞態時,必須保存的信息,從而保證該進程在再次啓動時,就像從未被中斷過同樣。

相關文章
相關標籤/搜索