Node.js：淺析高併發與分佈式集羣

時間 2019-11-08

標籤 node.js node 淺析併發分佈式集羣欄目 Node.js 简体版

原文原文鏈接

本文首發於個人我的博客: kmknkk.xin
不足之處歡迎斧正！

Node特性：高併發

在解釋node爲何可以作到高併發以前，不妨先了解一下node的其餘幾個特性：node

單線程

咱們先來明確一個概念，即：node是單線程的，這一點與JavaScript在瀏覽器中的特性相同，而且在node中JavaScript主線程與其餘線程（例如I/O線程）是沒法共享狀態的。nginx

單線程的好處就是：redis

無需像多線程那樣去關注線程之間的狀態同步問題
沒有線程切換所帶來的開銷
沒有死鎖存在

固然單線程也有許多壞處：sql

沒法充分利用多核CPU
大量計算佔用CPU會致使應用阻塞(即不適用CPU密集型)
錯誤會引發整個應用的退出

不過在今天看來，這些壞處都已經再也不是問題或者獲得了適當的解決：數據庫

(1) 建立進程 or 細分實例後端

關於第一個問題，最直白解決方案就是使用 child_process核心模塊或者 cluster：child_process 和 net 組合應用。咱們能夠經過在一臺多核服務器上建立多個進程（一般使用 fork操做）來充分利用每一個核心，不過要處理好進程間通訊問題。
另外一個方案是，咱們能夠將物理機器劃分爲多臺單核的虛擬機，並經過pm2等工具，管理多臺虛擬機造成一個集羣架構，高效運行所需服務，至於每臺機器間的通訊（狀態同步）我這裏先按下不表，在下文的Node分佈式架構中再作詳細說明。瀏覽器

(2) 時間片輪轉安全

關於第二點，我跟小夥伴討論事後認爲能夠經過時間片輪轉方式，在單線程上模擬多線程，適當減小應用阻塞的感受（雖然這種方法不會真的像多線程那樣節約時間）

(3) 負載均衡、壞點監控/隔離服務器

至於第三點，我跟小夥伴們也討論過，認爲主要的痛點就在於node不一樣於JAVA，它所實現的邏輯是以異步爲主的。
這就致使了node沒法像JAVA同樣方便地使用 try/catch 來來捕獲並繞過錯誤，由於沒法肯定異步任務會什麼時候傳回異常。而在單線程環境下，繞不過錯誤就意味着致使應用退出，重啓恢復的間隙會致使服務中斷，這是咱們不肯意看到的。多線程

固然，在服務器資源豐富的當下，咱們能夠經過 pm2 或 nginx 這些工具，動態的判斷服務狀態。在服務出錯時隔離壞點服務器，將請求轉發到正常服務器上，並重啓壞點服務器以繼續提供服務。這也是Node分佈式架構的一部分。

異步I/O

你可能會問，既然node是單線程的，事件所有在一個線程上處理，那不是應該效率很低、與高併發相悖嗎？

偏偏相反，node的性能很高。緣由之一就是node具備異步I/O特性，每當有I/O請求發生時，node會提供給該請求一個I/O線程。而後node就無論這個I/O的操做過程了，而是繼續執行主線程上的事件，只須要在該請求返回回調時在處理便可。也就是node省去了許多等待請求的時間。

這也是node支持高併發的重要緣由之一

實際上不光是I/O操做，node的絕大多數操做都是以這種異步的方式進行的。它就像是一個組織者，無需事必躬親，只須要告訴成員們如何正確的進行操做並接受反饋、處理關鍵步驟，就能使得整個團隊高效運行。

事務驅動

你可能又要問了，node怎麼知道請求返回了回調，又應該什麼時候去處理這些回調呢？

答案就是node的另外一特性：事務驅動，即主線程經過event loop事件循環觸發的方式來運行程序

這是node支持高併發的另外一重要緣由

圖解node環境下的Event loop：

┌───────────────────────┐
┌─>│        timers         │<————— 執行 setTimeout()、setInterval() 的回調
│  └──────────┬────────────┘
|             |<-- 執行全部 Next Tick Queue 以及 MicroTask Queue 的回調
│  ┌──────────┴────────────┐
│  │     I/O callbacks     │<————— 執行幾乎全部的回調，除了 close callbacks 以及 timers 調度的回調和 setImmediate() 調度的回調
│  └──────────┬────────────┘
|             |<-- 執行全部 Next Tick Queue 以及 MicroTask Queue 的回調
│  ┌──────────┴────────────┐
│  │     idle, prepare     │<————— 內部調用，可忽略
│  └──────────┬────────────┘     
|             |<-- 執行全部 Next Tick Queue 以及 MicroTask Queue 的回調
|             |                   ┌───────────────┐
│  ┌──────────┴────────────┐      │   incoming:   │ - (retrieve new I/O events; node will block here when appropriate)
│  │         poll          │<─────┤  connections, │ 
│  └──────────┬────────────┘      │   data, etc.  │ 
│             |                   |               | 
|             |                   └───────────────┘
|             |<-- 執行全部 Next Tick Queue 以及 MicroTask Queue 的回調
|  ┌──────────┴────────────┐      
│  │        check          │<————— setImmediate() 的回調將會在這個階段執行
│  └──────────┬────────────┘
|             |<-- 執行全部 Next Tick Queue 以及 MicroTask Queue 的回調
│  ┌──────────┴────────────┐
└──┤    close callbacks    │<————— socket.on('close', ...)
   └───────────────────────┘

poll階段：

當進入到poll階段，而且沒有timers被調用的時候，會發生下面的狀況:

（1）若是poll隊列不爲空：

Event Loop 將同步的執行poll queue裏的callback（新的I/O事件），直到queue爲空或者執行的callback到達上線。

（2）若是poll隊列爲空:

若是腳本調用了setImmediate(), Event Loop將會結束poll階段而且進入到check階段執行setImmediate()的回調。
若是腳本沒有setImmediate()調用，Event Loop將會等待回調（新的I/O事件）被添加到隊列中，而後當即執行它們。

當進入到poll階段，而且調用了timers的話，會發生下面的狀況:

一旦poll queue是空的話，Event Loop會檢查是否timers, 若是有1個或多個timers時間已經到達，Event Loop將會回到timer階段並執行那些timer的callback(即進入到下一次tick)。

優先級：

根據上面的圖，咱們不可貴出：

Next Tick Queue > MicroTask Queue

那麼setTimeout、setInterval和setImmediate誰快呢？

答案是：不肯定

單單從執行圖上看，若是二者都是在mian module裏定義的，那麼：setTimeout、setInterval > setImmediate

可是有兩個條件制約了這一結論：

event loop初始化須要必定時間
setTimeout有最小毫秒數（通常認爲最少1ms）

因此當 event loop準備時間 > setTimeout毫秒數時，進入timers檢查時已有setTimeout的任務，故timeout先輸出。反之則immediate先輸出。

若是是在poll階段定義的setTimeout和setImmediate，那麼immediate先於timeout輸出。緣由是在poll階段，會先進入check階段再進入timers階段。例如：

const fs = require('fs');

fs.readFile('./test.txt', 'utf8', (err, data) => {
    setTimeout( () => {
        console.log('setTimeout');
    }, 0);
    setImmediate( () => {
        console.log('setImmediate');
    })
})

/**
 *
 * console:
 * > setImmediate
 * > setTimeout
 *
 **/

多說一句：
因爲timer須要從紅黑樹中取出定時器來判斷時間是否到了，時間複雜度爲O(lg(n))，故若是想當即異步執行一個事件，最好不要用 setTimeout(func, 0)。而是使用 process.nextTick() 來完成。