Proactor模式&Reactor模式詳解

服務器端編程常常須要構造高性能的IO模型,常見的IO模型有四種:編程

(1)同步阻塞IO(Blocking IO):即傳統的IO模型。設計模式

(2)同步非阻塞IO(Non-blocking IO):默認建立的socket都是阻塞的,非阻塞IO要求socket被設置爲NONBLOCK。注意這裏所說的NIO並不是Java的NIO(New IO)庫。服務器

(3)IO多路複用(IO Multiplexing):(經典的Reactor設計模式,基於此設計模式,對用戶線程來講在I/O的第一階段即內核準備數據階段,是異步非阻塞的,但對於Reactor來講,它是阻塞的,它阻塞在了select/epoll上。在I/O第二階段即內核拷貝數據到用戶空間,經過Reactor通知用戶線程數據到達了或者回調用戶線程註冊的回調函數,用戶線程此時要發起系統調用recv,recv這個系統調用有些人認爲它算是一個阻塞過程,有些人認爲這不是阻塞過程,具體狀況參照描述的上下文決定。若是用戶線程直接調用select/epoll,那麼用戶線程是同步阻塞的),Java中的Selector和Linux中的epoll都是這種模型。網絡

(4)異步IO(Asynchronous IO):經典的Proactor設計模式,也稱爲異步非阻塞IO。多線程

 

同步和異步的概念描述的是用戶線程與內核的交互方式:同步是指用戶線程發起IO請求後須要等待或者輪詢內核IO操做完成後才能繼續執行;而異步是指用戶線程發起IO請求後仍繼續執行,當內核IO操做完成後會通知用戶線程,或者調用用戶線程註冊的回調函數。架構

阻塞和非阻塞的概念描述的是用戶線程調用內核IO操做的方式:阻塞是指IO操做須要完全完成後才返回到用戶空間;而非阻塞是指IO操做被調用後當即返回給用戶一個狀態值,無需等到IO操做完全完成。併發

 

另外,Richard Stevens 在《Unix 網絡編程》卷1中提到的基於信號驅動的IO(Signal Driven IO)模型,因爲該模型並不經常使用,本文不做涉及。接下來,咱們詳細分析四種常見的IO模型的實現原理。爲了方便描述,咱們統一使用IO的讀操做做爲示例。異步

 

1、同步阻塞IOsocket

 

同步阻塞IO模型是最簡單的IO模型,用戶線程在內核進行IO操做時被阻塞。函數

圖1 同步阻塞IO

如圖1所示,用戶線程經過系統調用read發起IO讀操做,由用戶空間轉到內核空間。內核等到數據包到達後,而後將接收的數據拷貝到用戶空間,完成read操做。

用戶線程使用同步阻塞IO模型的僞代碼描述爲:

{
read(socket, buffer);
process(buffer);
}

即用戶須要等待read將socket中的數據讀取到buffer後,才繼續處理接收的數據。整個IO請求的過程當中,用戶線程是被阻塞的,這致使用戶在發起IO請求時,不能作任何事情,對CPU的資源利用率不夠。

 

2、同步非阻塞IO

 

同步非阻塞IO是在同步阻塞IO的基礎上,將socket設置爲NONBLOCK。這樣作用戶線程能夠在發起IO請求後能夠當即返回。

 

圖2 同步非阻塞IO

如圖2所示,因爲socket是非阻塞的方式,所以用戶線程發起IO請求時當即返回。但並未讀取到任何數據,用戶線程須要不斷地發起IO請求,直到數據到達後,才真正讀取到數據,繼續執行。

用戶線程使用同步非阻塞IO模型的僞代碼描述爲:

{
while(read(socket, buffer) != SUCCESS)
;
process(buffer);
}

即用戶須要不斷地調用read,嘗試讀取socket中的數據,直到讀取成功後,才繼續處理接收的數據。整個IO請求的過程當中,雖然用戶線程每次發起IO請求後能夠當即返回,可是爲了等到數據,仍須要不斷地輪詢、重複請求,消耗了大量的CPU的資源。通常不多直接使用這種模型,而是在其餘IO模型中使用非阻塞IO這一特性。

 

3、IO多路複用

IO多路複用模型是創建在內核提供的多路分離函數select基礎之上的,使用select函數能夠避免同步非阻塞IO模型中輪詢等待的問題。

圖3 多路分離函數select

如圖3所示,用戶首先將須要進行IO操做的socket添加到select中,而後阻塞等待select系統調用返回。當數據到達時,socket被激活,select函數返回。用戶線程正式發起read請求,讀取數據並繼續執行。

從流程上來看,使用select函數進行IO請求和同步阻塞模型沒有太大的區別,甚至還多了添加監視socket,以及調用select函數的額外操做,效率更差。可是,使用select之後最大的優點是用戶能夠在一個線程內同時處理多個socket的IO請求。用戶能夠註冊多個socket,而後不斷地調用select讀取被激活的socket,便可達到在同一個線程內同時處理多個IO請求的目的。而在同步阻塞模型中,必須經過多線程的方式才能達到這個目的。

用戶線程使用select函數的僞代碼描述爲:

{
    select(socket);
    while(1) {
        sockets = select();
        for(socket in sockets) {
            if(can_read(socket)) {
            read(socket, buffer);
            process(buffer);
            }
        }
    }
}

其中while循環前將socket添加到select監視中,而後在while內一直調用select獲取被激活的socket,一旦socket可讀,便調用read函數將socket中的數據讀取出來。

 

然而,使用select函數的優勢並不只限於此。雖然上述方式容許單線程內處理多個IO請求,可是每一個IO請求的過程仍是阻塞的(在select函數上阻塞),平均時間甚至比同步阻塞IO模型還要長。若是用戶線程只註冊本身感興趣的socket或者IO請求,而後去作本身的事情,等到數據到來時再進行處理,則能夠提升CPU的利用率。

IO多路複用模型使用了Reactor設計模式實現了這一機制。

圖4 Reactor設計模式

如圖4所示,EventHandler抽象類表示IO事件處理器,它擁有IO文件句柄Handle(經過get_handle獲取),以及對Handle的操做handle_event(讀/寫等)。繼承於EventHandler的子類能夠對事件處理器的行爲進行定製。Reactor類用於管理EventHandler(註冊、刪除等),並使用handle_events實現事件循環,不斷調用同步事件多路分離器(通常是內核)的多路分離函數select,只要某個文件句柄被激活(可讀/寫等),select就返回(阻塞),handle_events就會調用與文件句柄關聯的事件處理器的handle_event進行相關操做。

圖5 IO多路複用

如圖5所示,經過Reactor的方式,能夠將用戶線程輪詢IO操做狀態的工做統一交給handle_events事件循環進行處理。用戶線程註冊事件處理器以後能夠繼續執行作其餘的工做(異步),而Reactor線程負責調用內核的select函數檢查socket狀態。當有socket被激活時,則通知相應的用戶線程(或執行用戶線程的回調函數),執行handle_event進行數據讀取、處理的工做。因爲select函數是阻塞的,所以多路IO複用模型也被稱爲異步阻塞IO模型。注意,這裏的所說的阻塞是指select函數執行時線程被阻塞,而不是指socket。通常在使用IO多路複用模型時,socket都是設置爲NONBLOCK的,不過這並不會產生影響,由於用戶發起IO請求時,數據已經到達了,用戶線程必定不會被阻塞。

用戶線程使用IO多路複用模型的僞代碼描述爲:

void UserEventHandler::handle_event() {

    if(can_read(socket)) {

        read(socket, buffer);

        process(buffer);

    }

}



{

Reactor.register(new UserEventHandler(socket));

}

用戶須要重寫EventHandler的handle_event函數進行讀取數據、處理數據的工做,用戶線程只須要將本身的EventHandler註冊到Reactor便可。Reactor中handle_events事件循環的僞代碼大體以下。

Reactor::handle_events() {

     while(1) {

         sockets = select();

         for(socket in sockets) {

             get_event_handler(socket).handle_event();

         }

     }

}

事件循環不斷地調用select獲取被激活的socket,而後根據獲取socket對應的EventHandler,執行器handle_event函數便可。

IO多路複用是最常使用的IO模型,可是其異步程度還不夠「完全」,由於它使用了會阻塞線程的select系統調用。所以IO多路複用只能稱爲異步阻塞IO,而非真正的異步IO。

 

4、異步IO

 

「真正」的異步IO須要操做系統更強的支持。在IO多路複用模型中,事件循環將文件句柄的狀態事件通知給用戶線程,由用戶線程自行讀取數據、處理數據。而在異步IO模型中,當用戶線程收到通知時,數據已經被內核讀取完畢,並放在了用戶線程指定的緩衝區內,內核在IO完成後通知用戶線程直接使用便可。

異步IO模型使用了Proactor設計模式實現了這一機制。

圖6 Proactor設計模式

如圖6,Proactor模式和Reactor模式在結構上比較類似,不過在用戶(Client)使用方式上差異較大。Reactor模式中,用戶線程經過向Reactor對象註冊感興趣的事件監聽,而後事件觸發時調用事件處理函數。而Proactor模式中,用戶線程將AsynchronousOperation(讀/寫等)、Proactor以及操做完成時的CompletionHandler註冊到AsynchronousOperationProcessor。AsynchronousOperationProcessor使用Facade模式提供了一組異步操做API(讀/寫等)供用戶使用,當用戶線程調用異步API後,便繼續執行本身的任務。AsynchronousOperationProcessor 會開啓獨立的內核線程執行異步操做,實現真正的異步。當異步IO操做完成時,AsynchronousOperationProcessor將用戶線程與AsynchronousOperation一塊兒註冊的Proactor和CompletionHandler取出,而後將CompletionHandler與IO操做的結果數據一塊兒轉發給Proactor,Proactor負責回調每個異步操做的事件完成處理函數handle_event。雖然Proactor模式中每一個異步操做均可以綁定一個Proactor對象,可是通常在操做系統中,Proactor被實現爲Singleton模式,以便於集中化分發操做完成事件。

圖7 異步IO

如圖7所示,異步IO模型中,用戶線程直接使用內核提供的異步IO API發起read請求,且發起後當即返回,繼續執行用戶線程代碼。不過此時用戶線程已經將調用的AsynchronousOperation和CompletionHandler註冊到內核,而後操做系統開啓獨立的內核線程去處理IO操做。當read請求的數據到達時,由內核負責讀取socket中的數據,並寫入用戶指定的緩衝區中。最後內核將read的數據和用戶線程註冊的CompletionHandler分發給內部Proactor,Proactor將IO完成的信息通知給用戶線程(通常經過調用用戶線程註冊的完成事件處理函數),完成異步IO。

用戶線程使用異步IO模型的僞代碼描述爲:

void UserCompletionHandler::handle_event(buffer) {

process(buffer);

}



{

aio_read(socket, new UserCompletionHandler);

}

用戶須要重寫CompletionHandler的handle_event函數進行處理數據的工做,參數buffer表示Proactor已經準備好的數據,用戶線程直接調用內核提供的異步IO API,並將重寫的CompletionHandler註冊便可。

相比於IO多路複用模型,異步IO並不十分經常使用,很多高性能併發服務程序使用IO多路複用模型+多線程任務處理的架構基本能夠知足需求。何況目前操做系統對異步IO的支持並不是特別完善,更多的是採用IO多路複用模型模擬異步IO的方式(IO事件觸發時不直接通知用戶線程,而是將數據讀寫完畢後放到用戶指定的緩衝區中)。Java7以後已經支持了異步IO,感興趣的讀者能夠嘗試使用。

本文從基本概念、工做流程和代碼示例三個層次簡要描述了常見的四種高性能IO模型的結構和原理,理清了同步、異步、阻塞、非阻塞這些容易混淆的概念。經過對高性能IO模型的理解,能夠在服務端程序的開發中選擇更符合實際業務特色的IO模型,提升服務質量。但願本文對你有所幫助。

相關文章
相關標籤/搜索