後線程時代的應用程序架構

時間 2019-11-21

原文原文鏈接

「後線程時代」，這跟好幾個名詞有關係， C# async await 關鍵字， Socket Async， ThreadPool，單體（Monosome），「異步回調流」。html

「異步回調流」是「異步回調流派」的意思， node.js， libuv， Java Netty ，這些是典型的異步回調流。node

async await 是單體（Monosome），git

我在以前的文章《我反對使用 async await》 http://www.javashuo.com/article/p-kfsmekfd-cv.html 中提到，「async await 正帶領 C# 向 Javascript 進化」。github

至於 Socket Async ，和 async await 有關係，也跟異步回調流有關係。編程

咱們來看看一位網友從一篇文章上節取下來的 2 段文字：api

因此，從理論上看，過多的線程切換對性能的消耗是挺大的，若是能省去這部分開銷，「節省」下來的性能是可觀的，也許能讓服務器的吞吐量（併發量）提升 1 個數量級。緩存

因此， Visual Studio 本身也在使用 async await，從 Visual Studio 有時候報錯的錯誤信息來看，錯誤信息中含有「MoveNext_xx ……」這樣的文字，這就是 async await 。服務器

線程池（ThreadPool）自己就能將線程數量控制在一個有限的範圍內，閉包

而將線程數量控制在一個有限的範圍內是減小線程切換的基礎。架構

我猜想 async await 的底層是基於 ThreadPool 的，是以 ThreadPool 做基礎的。

若是是這樣，那麼 async await 和異步回調流是等價的。

什麼是異步回調流？

咱們能夠把程序分爲 3 個部分：

1 順序執行

2 等待 IO

3 定時輪詢

1 把順序執行的多任務放到 ThreadPool 的工做隊列裏排隊，讓 ThreadPool 調度執行，

2 對於 IO 調用，採用異步調用的方式，傳入回調委託，當 IO 完成時，當 IO 完成時，回調委託，

3 對於定時輪詢，採用 ThreadPool 提供的方式，如 Timer，

這樣，作到以上 3 點，就是純粹的異步回調流。

理論上，異步回調流能夠將線程數量控制在有限的範圍內，或者，只須要使用很小數量的線程。

這樣，就像上面說的，能夠節省「可觀」的性能，可能能讓服務器的吞吐量提升 1 個數量級。

我寫了一個對 Socket 使用各類線程模型的測試項目： https://github.com/kelin-xycs/SocketThreadTest

從實驗中，咱們看到，在併發量大時，好比 800 個 Socket 鏈接以上時， ThreadPool 的性能優於 NewThread 的方式， NewThread 是指爲每一個鏈接建立一個線程。

可是， Async 和 Begin 的方式效率低於同步方法（Socket.Receive(), Socket.Send()）的方式。

甚至， Begin 方式中把 BeginSend() 改爲了 Send() 後，效率還提升了一些。固然 Receive 仍然是使用 BeginReceive() 。

Async 方式中 Accept, Receive, Send 所有使用 Async 方法，即 AcceptAsync(), ReceiveAsync(), SendAsync() 方法。

因此，若是 Server 端 Socket 的操做所有使用異步的方式，是否會比同步的 Receive() Send() 方式的性能更高，這個沒有看到有說服力的實驗。

So ……

So …… ？

So ？

我寫了一個對 async await 性能測試的項目： https://github.com/kelin-xycs/AsyncAwaitTest

解決方案裏包括 4 個項目，這 4 個項目都是經過 ThreadPool 來運行讀取文件的任務：

1 ThreadPoolRead，使用 File.Read() 方法

2 ThreadPoolReadAsync，使用 await File.ReadAsync()

3 ThreadPoolReadWait，使用 Task t = File.ReadAsync(); t.Wait();

4 ThreadPoolBeginRead，使用 File.BeginRead() 方法

5 ThreadPoolContinueWith，使用 Task t = File.ReadAsync(); t.ContinueWith();

6 ThreadPoolGetAwaiter，使用 Task t = File.ReadAsync(); t.GetAwaiter().OnCompleted();

任務是從文件中讀取 2 KB 的數據，默認開啓 10 萬個任務，能夠本身修改任務數量。

測試結果是：

10 萬個任務，完成用時，

Read() ： 0.43 秒，屢次測試表現穩定，基本上穩定在 0.43 秒左右。 CPU 佔用率高峯期 15% 左右，可能略小。

ReadAsync() ：最快 0.6 秒，屢次測試的表現差距很大，受電腦上其它進程的影響很大，在幾秒到 20 幾秒之間不等。 CPU 佔用率高峯期 15% 左右。

ReadWait ：定在那裏，沒有結果，可能 ThreadPool 裏不能 t.Wait() 。定着時候 CPU 佔用率 0% 。

BeginRead ：最快 1.1 秒，屢次測試的表現差距很大，受電腦上其它進程的影響很大，在幾秒到 20 幾秒之間不等。 CPU 佔用率高峯期 15% 左右。

ContinueWith ：最快 0.83 秒，屢次測試的表現差距很大，受電腦上其它進程的影響很大，在幾秒到 20 幾秒之間不等。 CPU 佔用率高峯期 15% 左右。

GetAwaiter ：最快 0.7 秒，屢次測試的表現差距很大，受電腦上其它進程的影響很大，在幾秒到 20 幾秒之間不等。 CPU 佔用率高峯期 15% 左右。

總的來講， Read 的方式效率最高，且是穩定運行的，其它的方式效率略低，且不穩定。

從我這幾回的測試，包括 Socket 和 File，異步問題不少，效率低於 Socket.Receive()， Socket.Send()， File.Read() 方法，且不穩定。

目前看起來 ThreadPool + 同步方法調用是最優的方案，高效穩定。能夠這麼說，能夠用這個架構來在 .Net 上構建服務器端應用。

（注：括號裏的這段註解內容是我後來補充的，後來經過對「無阻塞」編程的研究，發現異步方法的意義在於無阻塞，因此對於大併發應用來說， ThreadPool + 異步方法無阻塞的方式會更適合，參考《無阻塞編程模型》 http://www.javashuo.com/article/p-qxtbtyjk-ck.html

有網友說，在測試中，同時發起多個讀取文件操做，沒有指定 FileStream.Position，因此每一個任務讀取的內容是不肯定的。確實，存在這樣的問題，但個人這個測試主要是爲了觀察各類線程模型在大併發包含 IO 操做下的表現，因此 Position 的問題不影響觀察實驗結果。對於能夠併發讀取的 IO 操做好比 Socket，這個實驗是有類比參考意義的。又假設文件操做也是能夠併發的，那麼在讀取文件的方法（好比 Read(), BeginRead(), ReadAsync() ）裏能夠傳入 position 參數，這樣就能夠併發讀取。）

而這些測試也代表了， async await 的表現並非想象中那樣理想。相對於同步方法不只效率沒有更高，還更低。

也就是說，咱們從理論上看到的線程切換帶來的性能損耗及其推論的相關理論，和實際不徹底相符，

這暗示着，計算機可能在按另外的規律在運行。

技術上，本身能夠實現狀態機和 Promise 之類的，用相似 Task.Factory.FromAsync( BeginXXX …… ) 這樣的方式，經過咱們本身寫一個相似 FromAsync() 這樣的方法，能夠截獲 BeginXXX 方法返回的 IAsyncResult 對象，咱們能夠把 IAsyncResult 放入狀態機的隊列裏，而後，狀態機經過 ThreadPool 的 Timer 來定時（好比 10 毫秒）來遍歷檢查這些 IAsyncResult 的狀態看異步調用是否結束，若結束則調用回調，或者按照 Promise .When() 的邏輯等待幾個任務的 IAsyncResult 的狀態都是完成時，再調用 Then 委託。

這樣能夠實現 async await 的狀態機，也能夠實現 Promise 。

但問題是定時和遍歷，尤爲是遍歷，效率不見得高。

另外，將代碼切割成多塊，頻繁的把小塊任務放到 ThreadPool 的隊列裏排隊，也會下降效率，由於操做隊列須要 Lock（同步互斥），頻繁的把小塊任務放入隊列和取出執行會發生更多的 Lock 。

同時，將代碼切割成多塊，變爲回調的方式，也會增長一些工做量，好比閉包封送參數，或是 State 對象傳遞參數，以及異步回調相關的代碼。

因此，從這裏也說明了，我所作的多次實驗，從 Socket 到 File， Begin Async 等異步方法效率老是低於同步的 Socket.Receive()， Socket.Send()， File.Read() 方法的緣故。

async await 多是微軟的一支戰略吧，不過看起來微軟到如今對 async await 都語焉不詳。

不過 async await 大概是微軟要實踐「單體」這個理論，因此，說它帶領 C# 向 Javascript 進化一點不爲過。

但實踐代表，這個「單體」的性能不見得是最優，減小線程切換和完全的單線程（單體）之間有一個最大公約數。

從通訊上， IO 完成時，發信號通知線程，進入就緒隊列，這個是最優的，但問題是帶來了切換上下文問題。

但若是不想切換上下文，就要線程「本身」去看 IO 完成沒，就變成輪詢。 So ……

減小線程切換和完全的單線程（單體）之間有一個折中點，不是徹底偏向哪邊就是最好的。

單體，就是一個線程負責全部的任務調度。

從這幾天的實踐能夠大概看到，省掉了切換上下文，可是頻繁的把任務放到 ThreadPool 的工做隊列裏排隊，實際上又增長了性能消耗，實時響應性反而很差。

其實從個人 ThreadPoolRead 這個項目，就是用 Read 方法的這個項目， 10 萬次讀取文件 0.43 秒完成的這個，

能夠推算出一次線程切換是多少時間。

或者說， 1 秒鐘能夠切換多少次線程。

由於數據量小，且是重複讀取，因此，第一次以後，都是從緩衝區讀取，是內存 -> 內存的拷貝，很快。

這樣，業務操做越簡單，越能反映出線程切換的時間，或者說， 1 秒能切換多少次線程。如今看到的數量是很可觀的。

有網友提到性能測試要在「密集計算」下測，所謂密集計算，我想就是指包含大量業務邏輯的計算。在業務邏輯複雜的狀況下，線程切換時 CPU Cache 被刷新的效應可能會更顯著。

不過具體對性能的影響如何，仍是要經過實驗來看實際的效果。

咱們來看看 docs.microsoft 對 Thread 的說明： https://docs.microsoft.com/zh-cn/dotnet/api/system.threading.thread.-ctor?view=netframework-4.7.2#System_Threading_Thread__ctor_System_Threading_ThreadStart_System_Int32_

默認最大的棧大小是 1 MB，最小的棧大小大概是 256 KB，大概是這麼一個體量。

從某個角度來看，線程使用中的堆棧空間越小，切換線程的時間就越快。

理想的情況，線程的堆棧數據能夠長期存放在 CPU 3 級 Cache，這樣能夠快速的切換線程。

咱們來看看內存的讀寫速度： https://zhidao.baidu.com/question/1797460631148535467.html

DDR 3 的讀寫速度是 12.8 GB/S，能夠認爲是 1 納秒能夠讀取 10 B， 1 微秒能夠讀取 10 KB 。

1 微秒 10 KB， 100 微秒 1 MB，因此，徹底刷新一個線程 1MB 的棧，須要 100 微秒，即 0.1 毫秒。

所謂「刷新」，是指將數據從內存複製到 CPU 3 級緩存。

這樣的話，若是一個線程的棧是 1 MB，固然這算是大的了，切換到這個線程的時間須要 0.1 毫秒以上（由於還有其它操做），

這有點太「重型」了。

實際的狀況不徹底是這樣，咱們看看上面 docs.microsoft 對 Thread 的說明：

能夠看到，有一個「頁大小 64KB」，從這裏咱們能夠想到，操做系統從內存複製數據到 3 級緩存時，不見得會把整個棧的數據複製過來，而應該是把當前可能用到的那一段數據複製過來。而複製數據的單位就是虛擬內存頁，一個虛擬內存頁是 64 KB 。

根據上面推算的 1 微秒 10 KB，從內存複製 64 KB 數據到 3 級 Cache 要 6.4 微秒。

但，若是堆棧的數據可以長期存放在 3 級 Cache，那這個 6.4 微秒的時間也不須要了。

因此，我提出一個定理：

若是 n 個線程使用的堆棧空間大小總和是 CPU 3 級 Cache 的 1/3，則這 n 個線程的線程切換是健康的，常規的。

好比，有 100 個線程，每一個線程最大堆棧空間是 64 KB，那麼， 10 個線程的堆棧空間總和是 64 KB * 100 約等於 6.4 MB，

則若 CPU 的 3 級緩存大小是 6.4 MB * 3 = 19.2 MB 以上的話，這 100 個線程的線程切換就是健康的，常規的。

從這個角度來說，若是硬件技術在 CPU Cache 上可以有效進步的話，將來若干年內，摩爾定律將會繼續有效。

減少線程上下文，減小線程切換的工做量，線程切換輕量化，線程輕量化，是操做系統輕量化的一個方向。

這一點我也加到了《將來須要的是輕量操做系統而不是容器》 http://www.javashuo.com/article/p-oeegsskj-gp.html 一文裏。

最後，本文結論是：

1 用 ThreadPool 合理利用線程資源就能夠了，沒必要過分使用異步回調來達到節省性能的目的。

2 能夠有針對性的改善硬件資源來減少線程切換的性能損耗。好比 CPU Cache，尤爲是 3 級 Cache 。

3 仍是那幾句老話「硬件是最廉價的」，「代碼是寫給人看的」，「維護軟件的成本比購買硬件的成本高」，「人是最昂貴的」。

再加上一條，通過這幾天的研究，發現無阻塞是有利的，能夠參考《無阻塞編程模型》 http://www.javashuo.com/article/p-qxtbtyjk-ck.html 。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

後線程時代 的 應用程序 架構

後線程時代的應用程序架構