細說websocket快速重連機制

時間 2020-07-25

標籤細說 websocket 快速機制简体版

原文原文鏈接

網易智慧企業web前端開發工程師馬瑩瑩html

引言前端

在一個完善的即時通信應用中，websocket是極其關鍵的一環，它爲web應用的客戶端和服務端提供了一種全雙工的通訊機制，但因爲它自己以及其底層依賴的TCP鏈接的不穩定性，開發者不得不爲其設計一套完整的保活、驗活、重連方案，才能在實際應用中保證應用的即時性和高可用性。就重連而言，其速度嚴重影響了上層應用的「即時性」和用戶體驗，試想打開網絡一分鐘後，微信還不能收發消息的話，是否是要抓狂？web

所以，如何在網絡變動時快速恢復websocket的可用，就變得尤其重要。算法

快速瞭解websocetsegmentfault

Websocket誕生於2008年，在2011年成爲國際標準，如今全部的瀏覽器都已支持。它是一種全新的應用層協議，是專門爲web客戶端和服務端設計的真正的全雙工通訊協議，跨域

能夠類比HTTP協議來了解websocket協議。它們的不一樣點：瀏覽器

HTTP的協議標識符是http，websocket的是ws
HTTP請求只能由客戶端發起，服務器沒法主動向客戶端推送消息，而websocket能夠
HTTP請求有同源限制，不一樣源之間通訊須要跨域，而websocket沒有同源限制

相同點：服務器

都是應用層的通訊協議
默認端口同樣，都是80或443
均可以用於瀏覽器和服務器間的通訊
都基於TCP協議

二者和TCP的關係圖：
微信

圖片來源websocket

重連過程拆解

首先考慮一個問題，什麼時候須要重連？

最容易想到的是websocket鏈接斷了，爲了接下來能收發消息，咱們須要再發起一次鏈接。但在不少場景下，即使websocket鏈接沒有斷開，實際上也不可用了，好比設備切換網絡、鏈路中間路由崩潰、服務器負載持續太高沒法響應等，這些場景下的websocket都沒有斷開，但對上層來講，都沒辦法正常的收發數據了。所以在重連前，咱們須要一種機制來感知鏈接是否可用、服務是否可用，並且要能快速感知，以便可以快速從不可用狀態中恢復。

一旦感知到了鏈接不可用，那即可以棄舊圖新了，棄用並斷開舊鏈接，而後發起一次新鏈接。這兩個步驟看似簡單，但若想達到快，且不是那麼容易的。

首先是斷開舊鏈接，對客戶端來講，如何快速快速斷開？協議規定客戶端必需要和服務器協商後才能斷開websocket鏈接，可是當客戶端已經聯繫不上服務器、沒法協商時，如何斷開並快速恢復？

其次是快速發起新鏈接。此快非彼快，這裏的快並不是是當即發起鏈接，當即發起鏈接會對服務器帶來不可預估的影響。重連時一般會採用一些退避算法，延遲一段時間後再發起重連。但如何在重連間隔和性能消耗間作出權衡？如何在「恰當的時間點」快速發起鏈接？

帶着這些疑問，咱們來細看下這三個過程。

快速感知什麼時候須要重連

須要重連的場景能夠細分爲三種，一是鏈接斷開了，二是鏈接沒斷可是不可用，三是鏈接對端的服務不可用了。

第一種場景很簡單，鏈接直接斷開了，確定須要重連了。

而對於後二者，不管是鏈接不可用，仍是服務不可用，對上層應用的影響都是不能再收發即時消息了，因此從這個角度出發，感知什麼時候須要重連的一種簡單粗暴的方法就是經過心跳包超時：發送一個心跳包，若是超過特定的時間後尚未收到服務器回包，則認爲服務不可用，以下圖中左側的方案；這種方法最直接。那若是想要快速感知呢，就只能多發心跳包，加快心跳頻率。可是心跳太快對移動端流量、電量的消耗又會太多，因此使用這種方法沒辦法作到快速感知，能夠做爲檢測鏈接和服務可用的兜底機制。

若是要檢測鏈接不可用，除了用心跳檢測，還能夠經過判斷網絡狀態來實現，由於斷網、切換wifi、切換網絡是致使鏈接不可用的最直接緣由，因此在網絡狀態由offline變爲online時，大多數狀況下須要重連下，但也不必定，由於webscoket底層是基於TCP的，TCP鏈接不能敏銳的感知到應用層的網絡變化，因此有時候即使網絡斷開了一小會，對websocket鏈接是不會有影響的，網絡恢復後，仍然可以正常地進行通訊。所以在網絡由斷開到鏈接上時，當即判斷下鏈接是否可用，能夠經過發一個心跳包判斷，若是可以正常收到服務器的心跳回包，則說明鏈接還是可用的，若是等待超時後仍沒有收到心跳回包，則須要重連，如上圖中的右側。這種方法的優勢是速度快，在網絡恢復後可以第一時間感知鏈接是否可用，不可用的話能夠快速執行恢復，但它只能覆蓋應用層網絡變化致使websocket不可用的狀況。

綜上，定時發送心跳包檢測的方案貴在穩定，可以覆蓋全部場景，但速度不太可；而判斷網絡狀態的方案速度快，無需等待心跳間隔，較爲靈敏，但覆蓋場景較爲侷限。所以，咱們能夠結合兩種方案：定時以不太快的頻率發送心跳包，好比40s/次、60s/次等，具體能夠根據應用場景來定，而後在網絡狀態由offline變爲online時當即發送一次心跳，檢測當前鏈接是否可用，不可用的話當即進行恢復處理。這樣在大多數狀況下，上層的應用通訊都能較快從不可用狀態中恢復，對於少部分場景，有定時心跳做爲兜底，在一個心跳週期內也可以恢復。

快速斷開舊鏈接

一般狀況下，在發起下一次鏈接前，若是舊鏈接還存在的話，應該先把舊鏈接斷開，這樣一來能夠釋放客戶端和服務器的資源，二來能夠避免以後誤從舊鏈接收發數據。

咱們知道websocket底層是基於TCP協議傳輸數據的，鏈接兩端分別是服務器和客戶端，而TCP的TIME_WAIT狀態是由服務器端維持的，所以在大多數正常狀況下，應該由服務器發起斷開底層TCP鏈接，而不是客戶端。也就是說，要斷開websocket鏈接時，若是是服務器收到指示要斷開websocket，那它應該當即發起斷開TCP鏈接；若是是客戶端收到指示要斷開websocket，那它應該發信號給服務器，而後等待底層TCP鏈接被服務器斷開或直至超時。

那若是客戶端想要斷開舊的websocket，能夠分websocket鏈接可用和不可用兩種狀況來討論。當舊鏈接可用時，客戶端能夠直接給服務器發送斷開信號，而後服務器發起斷開鏈接便可；當舊鏈接不可用時，好比客戶端切換了wifi，客戶端發送了斷開信號，可是服務器收不到，客戶端只能遲遲等待，直至超時才能被容許斷開。超時斷開的過程相對來講是比較久的，那有沒有辦法能夠快點斷開？

上層應用沒法改變只能由服務器發起斷開鏈接這種協議層面的規則，因此只能從應用邏輯入手，好比在上層經過業務邏輯保證舊鏈接徹底失效，模擬鏈接斷開，而後在發起新鏈接，恢復通信。這種方法至關於嘗試斷開舊鏈接不行時，直接棄之，而後就能快速進入下一流程，因此在使用時必定要確保在業務邏輯上舊鏈接已徹底失效，好比：保證丟掉從舊鏈接收到全部數據、舊鏈接不能阻礙新鏈接的創建，舊鏈接超時斷開後不能影響新鏈接和上層業務邏輯等等。

快速發起新鏈接

有IM開發經驗的同窗應該有所瞭解，遇到因網絡緣由致使的重連時，是萬萬不能當即發起一次新鏈接的，不然當出現網絡抖動時，全部的設備都會當即同時向服務器發起鏈接，這無異於黑客經過發起大量請求消耗網絡帶寬引發的拒絕服務攻擊，這對服務器來講簡直是災難。因此在重連時一般採用一些退避算法，延遲一段時間再發起重連，以下圖中左側的流程。

若是要快速連上呢？最直接的作法就是縮短重試間隔，重試間隔越短，在網絡恢復後就能越快的恢復通信。可是太頻繁的重試對性能、帶寬、電量的消耗就比較嚴重。如何在這之間作一個較好的權衡呢？

一種比較合理的方式是隨着重試次數增多，逐漸增大重試間隔；另外一方面監聽網絡變化，在網絡狀態由offline變爲online這種比較可能重連上的時刻，能夠適當地減少重連間隔，如上圖中的右側（隨重試次數的增多，重連間隔也會變大），兩種方式配合使用。

除此以外，還能夠結合業務邏輯，根據成功重連上的可能性適當的調整間隔，如網絡未鏈接時或應用在後臺時重連間隔能夠調大一些，網絡正常的狀態下能夠適當調小一些等等，加快重連上的速度。

結尾

最後總結一下，本文在開頭將websocket斷網重連細分爲三個步驟：肯定什麼時候須要重連、斷開舊鏈接和發起新鏈接。而後分別分析了在websocket的不一樣狀態下、不一樣的網絡狀態下，如何快速完成這個三個步驟：首先經過定時發送心跳包的方式檢測當前鏈接是否可用，同時監測網絡恢復事件，在恢復後當即發送一次心跳，快速感知當前狀態，判斷是否須要重連；其次正常狀況下由服務器斷開舊鏈接，與服務器失去聯繫時直接棄用舊鏈接，上層模擬斷開，來實現快速斷開；最後發起新鏈接時使用退避算法延遲一段時間再發起鏈接，同時考慮到資源浪費和重連速度，能夠在網絡離線時調大重連間隔，在網絡正常或網絡由offline變爲online時縮小重連間隔，使之儘量快地重連上。

參考：

瞭解網易雲信，來自網易核心架構的通訊與視頻雲服務>>

更多技術乾貨，歡迎關注vx公衆號「網易智慧企業技術+」。系列課程提早看，精品禮物免費得，還可直接對話CTO。

聽網易CTO講述前沿觀察，看最有價值技術乾貨，學網易最新實踐經驗。網易智慧企業技術+，陪你從思考者成長爲技術專家。