轉自:http://jolestar.com/parallel-programming-model-thread-goroutine-actor/java
先梳理下兩個概念,幾乎全部講併發的文章都要先講這兩個概念:linux
因此總結下,併發並不要求必須並行,能夠用時間片切分的方式模擬,好比單核cpu上的多任務系統,併發的要求是任務能切分紅獨立執行的片斷。而並行關注的是同時執行,必須是多(核)cpu,要能並行的程序必須是支持併發的。本文大多數狀況下不會嚴格區分這兩個概念,默認併發就是指並行機制下的併發。golang
We believe that writing correct concurrent, fault-tolerant and scalable applications is too hard. Most of the time it’s because we are using the wrong tools and the wrong level of abstraction. —— Akka正則表達式
Akka官方文檔開篇這句話說的好,之因此寫正確的併發,容錯,可擴展的程序如此之難,是由於咱們用了錯誤的工具和錯誤的抽象。(固然該文檔原本的意思是Akka是正確的工具,但咱們能夠獨立的看待這句話)。數據庫
那咱們從最開始梳理下程序的抽象。開始咱們的程序是面向過程的,數據結構+func。後來有了面向對象,對象組合了數結構和func,咱們想用模擬現實世界的方式,抽象出對象,有狀態和行爲。但不管是面向過程的func仍是面向對象的func,本質上都是代碼塊的組織單元,自己並無包含代碼塊的併發策略的定義。因而爲了解決併發的需求,引入了Thread(線程)的概念。編程
線程(Thread)安全
線程的出現解決了兩個問題,一個是GUI出現後急切須要併發機制來保證用戶界面的響應。第二是互聯網發展後帶來的多用戶問題。最先的CGI程序很簡單,將經過腳本將原來單機版的程序包裝在一個進程裏,來一個用戶就啓動一個進程。但明顯這樣承載不了多少用戶,而且若是進程間須要共享資源還得經過進程間的通訊機制,線程的出現緩解了這個問題。服務器
線程的使用比較簡單,若是你以爲這塊代碼須要併發,就把它放在單獨的線程裏執行,由系統負責調度,具體何時使用線程,要用多少個線程,由調用方決定,但定義方並不清楚調用方會如何使用本身的代碼,不少併發問題都是由於誤用致使的,好比Go中的map以及Java的HashMap都不是併發安全的,誤用在多線程環境就會致使問題。另外也帶來複雜度:網絡
爲了解決上述問題,咱們引入了許多複雜機制來保證:數據結構
若是說上面兩個問題只是增長了複雜度,咱們經過深刻學習,嚴謹的CodeReview,全面的併發測試(好比Go語言中單元測試的時候加上-race參數),必定程度上能解決(固然這個也是有爭議的,有論文認爲當前的大多數併發程序沒出問題只是併發度不夠,若是CPU核數繼續增長,程序運行的時間更長,很難保證不出問題)。但最讓人頭痛的仍是下面這個問題:
系統裏到底須要多少線程?
這個問題咱們先從硬件資源入手,考慮下線程的成本:
調度成本(context-switch)
我在我的電腦上作的一個非嚴格測試,模擬兩個線程互相喚醒輪流掛起,線程切換成本大約6000納秒/次。這個還沒考慮棧空間大小的影響。國外一篇論文專門分析線程切換的成本,基本上得出的結論是切換成本和棧空間使用大小直接相關。
這個咱們能夠經過一個公式計算出來,100/(15+5)*4=20,用20個線程最合適。但一方面網絡的時間不是固定的,另一方面,若是考慮到其餘瓶頸資源呢?好比鎖,好比數據庫鏈接池,就會更復雜。
做爲一個1歲多孩子的父親,認爲這個問題的難度比如你要寫個給孩子餵飯的程序,須要考慮『給孩子喂多少飯合適?』,這個問題有如下回答以及策略:
經過這個例子咱們能夠看出,從外部系統來觀察,或者以經驗的方式進行計算,都是很是困難的。因而結論是:
讓孩子會說話,吃飽了本身說,本身學會吃飯,自管理是最佳方案。
然並卵,計算機不會本身說話,如何自管理?
但咱們從以上的討論能夠得出一個結論:
Java1.5後,Doug Lea的Executor系列被包含在默認的JDK內,是典型的線程池方案。
線程池必定程度上控制了線程的數量,實現了線程複用,下降了線程的使用成本。但仍是沒有解決數量的問題,線程池初始化的時候仍是要設置一個最小和最大線程數,以及任務隊列的長度,自管理只是在設定範圍內的動態調整。另外不一樣的任務可能有不一樣的併發需求,爲了不互相影響可能須要多個線程池,最後致使的結果就是Java的系統裏充斥了大量的線程池。
從前面的分析咱們能夠看出,若是線程是一直處於運行狀態,咱們只需設置和CPU核數相等的線程數便可,這樣就能夠最大化的利用CPU,而且下降切換成本以及內存使用。但如何作到這一點呢?
陳力就列,不能者止
這句話是說,能幹活的代碼片斷就放在線程裏,若是幹不了活(須要等待,被阻塞等),就摘下來。通俗的說就是不要佔着茅坑不拉屎,若是拉不出來,須要醞釀下,先把茅坑讓出來,由於茅坑是稀缺資源。
要作到這點通常有兩種方案:
異步回調方案 典型如NodeJS,遇到阻塞的狀況,好比網絡調用,則註冊一個回調方法(其實還包括了一些上下文數據對象)給IO調度器(linux下是libev,調度器在另外的線程裏),當前線程就被釋放了,去幹別的事情了。等數據準備好,調度器會將結果傳遞給回調方法而後執行,執行其實不在原來發起請求的線程裏了,但對用戶來講無感知。但這種方式的問題就是很容易遇到callback hell,由於全部的阻塞操做都必須異步,不然系統就卡死了。還有就是異步的方式有點違反人類思惟習慣,人類仍是習慣同步的方式。
GreenThread/Coroutine/Fiber方案 這種方案其實和上面的方案本質上區別不大,關鍵在於回調上下文的保存以及執行機制。爲了解決回調方法帶來的難題,這種方案的思路是寫代碼的時候仍是按順序寫,但遇到IO等阻塞調用時,將當前的代碼片斷暫停,保存上下文,讓出當前線程。等IO事件回來,而後再找個線程讓當前代碼片斷恢復上下文繼續執行,寫代碼的時候感受好像是同步的,彷彿在同一個線程完成的,但實際上系統可能切換了線程,但對程序無感。
GreenThread
幾個概念
Goroutine其實就是前面GreenThread系列解決方案的一種演進和實現。
Goroutine調度器
這個圖通常講Goroutine調度器的地方都會引用,想要仔細瞭解的能夠看看原博客。這裏只說明幾點:
Goroutine是銀彈麼?
Goroutine很大程度上下降了併發的開發成本,是否是咱們全部須要併發的地方直接go func就搞定了呢?
Go經過Goroutine的調度解決了CPU利用率的問題。但遇到其餘的瓶頸資源如何處理?好比帶鎖的共享資源,好比數據庫鏈接等。互聯網在線應用場景下,若是每一個請求都扔到一個Goroutine裏,當資源出現瓶頸的時候,會致使大量的Goroutine阻塞,最後用戶請求超時。這時候就須要用Goroutine池來進行控流,同時問題又來了:池子裏設置多少個Goroutine合適?
因此這個問題仍是沒有從更本上解決。
Actor對沒接觸過這個概念的人可能不太好理解,Actor的概念其實和OO裏的對象相似,是一種抽象。面對對象編程對現實的抽象是對象=屬性+行爲(method),但當使用方調用對象行爲(method)的時候,其實佔用的是調用方的CPU時間片,是否併發也是由調用方決定的。這個抽象其實和現實世界是有差別的。現實世界更像Actor的抽象,互相都是經過異步消息通訊的。好比你對一個美女say hi,美女是否迴應,如何迴應是由美女本身決定的,運行在美女本身的大腦裏,並不會佔用發送者的大腦。
因此Actor有如下特徵:
Actor遵循如下規則:
Actor的目標:
Actor的實現:
兩者的格言都是:
Don’t communicate by sharing memory, share memory by communicating
經過消息通訊的機制來避免競態條件,但具體的抽象和實現上有些差別。
從這樣看來,CSP的模式比較適合Boss-Worker模式的任務分發機制,它的侵入性沒那麼強,能夠在現有的系統中經過CSP解決某個具體的問題。它並不試圖解決通訊的超時容錯問題,這個仍是須要發起方進行處理。同時因爲Channel是顯式的,雖然能夠經過netchan(原來Go提供的netchan機制因爲過於複雜,被廢棄,在討論新的netchan)實現遠程Channel,但很難作到對使用方透明。而Actor則是一種全新的抽象,使用Actor要面臨整個應用架構機制和思惟方式的變動。它試圖要解決的問題要更廣一些,好比容錯,好比分佈式。但Actor的問題在於以當前的調度效率,哪怕是用Goroutine這樣的機制,也很難達到直接方法調用的效率。當前要像OO的『一切皆對象』同樣實現一個『一切皆Actor』的語言,效率上確定有問題。因此折中的方式是在OO的基礎上,將系統的某個層面的組件抽象爲Actor。
Rust解決併發問題的思路是首先認可現實世界的資源老是有限的,想完全避免資源共享是很難的,不試圖徹底避免資源共享,它認爲併發的問題不在於資源共享,而在於錯誤的使用資源共享。好比咱們前面提到的,大多數語言定義類型的時候,並不能限制調用方如何使用,只能經過文檔或者標記的方式(好比Java中的@ThreadSafe ,@NotThreadSafe annotation)說明是否併發安全,但也只能僅僅作到提示的做用,不能阻止調用方誤用。雖然Go提供了-race機制,能夠經過運行單元測試的時候帶上這個參數來檢測競態條件,但若是你的單元測試併發度不夠,覆蓋面不到也檢測不出來。因此Rust的解決方案就是:
有了這機制,Rust能夠在編譯期而不是運行期對競態條件作檢查和限制。雖然開發的時候增長了心智成本,但下降了調用方以及排查併發問題的心智成本,也是一種有特點的解決方案。
革命還沒有成功 同志任需努力
本文帶你們一塊兒回顧了併發的問題,和各類解決方案。雖然各家有各家的優點以及使用場景,但併發帶來的問題還遠遠沒到解決的程度。因此還需努力,你們也有機會啊。
這個咱們能夠經過一個公式計算出來,100/(15+5)*4=20,用20個線程最合適。但一方面網絡的時間不是固定的,另一方面,若是考慮到其餘瓶頸資源呢?好比鎖,好比數據庫鏈接池,就會更復雜。
做爲一個1歲多孩子的父親,認爲這個問題的難度比如你要寫個給孩子餵飯的程序,須要考慮『給孩子喂多少飯合適?』,這個問題有如下回答以及策略:
經過這個例子咱們能夠看出,從外部系統來觀察,或者以經驗的方式進行計算,都是很是困難的。因而結論是:
讓孩子會說話,吃飽了本身說,本身學會吃飯,自管理是最佳方案。
然並卵,計算機不會本身說話,如何自管理?
但咱們從以上的討論能夠得出一個結論:
Java1.5後,Doug Lea的Executor系列被包含在默認的JDK內,是典型的線程池方案。
線程池必定程度上控制了線程的數量,實現了線程複用,下降了線程的使用成本。但仍是沒有解決數量的問題,線程池初始化的時候仍是要設置一個最小和最大線程數,以及任務隊列的長度,自管理只是在設定範圍內的動態調整。另外不一樣的任務可能有不一樣的併發需求,爲了不互相影響可能須要多個線程池,最後致使的結果就是Java的系統裏充斥了大量的線程池。
從前面的分析咱們能夠看出,若是線程是一直處於運行狀態,咱們只需設置和CPU核數相等的線程數便可,這樣就能夠最大化的利用CPU,而且下降切換成本以及內存使用。但如何作到這一點呢?
陳力就列,不能者止
這句話是說,能幹活的代碼片斷就放在線程裏,若是幹不了活(須要等待,被阻塞等),就摘下來。通俗的說就是不要佔着茅坑不拉屎,若是拉不出來,須要醞釀下,先把茅坑讓出來,由於茅坑是稀缺資源。
要作到這點通常有兩種方案:
異步回調方案 典型如NodeJS,遇到阻塞的狀況,好比網絡調用,則註冊一個回調方法(其實還包括了一些上下文數據對象)給IO調度器(linux下是libev,調度器在另外的線程裏),當前線程就被釋放了,去幹別的事情了。等數據準備好,調度器會將結果傳遞給回調方法而後執行,執行其實不在原來發起請求的線程裏了,但對用戶來講無感知。但這種方式的問題就是很容易遇到callback hell,由於全部的阻塞操做都必須異步,不然系統就卡死了。還有就是異步的方式有點違反人類思惟習慣,人類仍是習慣同步的方式。
GreenThread/Coroutine/Fiber方案 這種方案其實和上面的方案本質上區別不大,關鍵在於回調上下文的保存以及執行機制。爲了解決回調方法帶來的難題,這種方案的思路是寫代碼的時候仍是按順序寫,但遇到IO等阻塞調用時,將當前的代碼片斷暫停,保存上下文,讓出當前線程。等IO事件回來,而後再找個線程讓當前代碼片斷恢復上下文繼續執行,寫代碼的時候感受好像是同步的,彷彿在同一個線程完成的,但實際上系統可能切換了線程,但對程序無感。
GreenThread
幾個概念
Goroutine其實就是前面GreenThread系列解決方案的一種演進和實現。
Goroutine調度器