RPC細節

時間 2020-05-10

標籤 rpc 細節欄目微服務简体版

原文原文鏈接

服務化有什麼好處？

服務化的一個好處就是，不限定服務的提供方使用什麼技術選型，可以實現大公司跨團隊的技術解耦，以下圖所示：redis

服務A：歐洲團隊維護，技術背景是Java數據庫
服務B：美洲團隊維護，用C++實現編程
服務C：中國團隊維護，技術棧是gojson

服務的上游調用方，按照接口、協議便可完成對遠端服務的調用。緩存

但實際上，大部分互聯網公司，研發團隊規模有限，大都使用同一套技術體系來實現服務：服務器

這樣的話，若是沒有統一的服務框架，各個團隊的服務提供方就須要各自實現一套序列化、反序列化、網絡框架、鏈接池、收發線程、超時處理、狀態機等「業務以外」的重複技術勞動，形成總體的低效。網絡

所以，統一服務框架把上述「業務以外」的工做統一實現，是服務化首要解決的問題。架構

什麼是RPC？負載均衡

Remote Procedure Call Protocol，遠程過程調用。框架

什麼是「遠程」，爲何「遠」？

先來看下什麼是「近」，即「本地函數調用」。

當咱們寫下：

int result = Add(1, 2);

這行代碼的時候，到底發生了什麼？

傳遞兩個入參
調用了本地代碼段中的函數，執行運算邏輯
返回一個出參

這三個動做，都發生在同一個進程空間裏，這是本地函數調用。

那有沒有辦法，調用一個跨進程的函數呢？

典型的，這個進程部署在另外一臺服務器上。

最容易想到的，兩個進程約定一個協議格式，使用Socket通訊，來傳輸：

入參
調用哪一個函數
出參

若是可以實現，那這就是「遠程」過程調用。

Socket通訊只能傳遞連續的字節流，如何將入參、函數都放到連續的字節流裏呢？

假設，設計一個11字節的請求報文：

前3個字節填入函數名「add」
中間4個字節填入第一個參數「1」
末尾4個字節填入第二個參數「2」

同理，能夠設計一個4字節響應報文：

4個字節填入處理結果「3」

調用方的代碼可能變爲：

request = MakePacket(「add」, 1, 2);

SendRequest_ToService_B(request);

response = RecieveRespnse_FromService_B();

int result = unMakePacket(respnse);

這4個步驟是：

（1）將傳入參數變爲字節流；

（2）將字節流發給服務B；

（3）從服務B接受返回字節流；

（4）將返回字節流變爲傳出參數；

服務方的代碼可能變爲：

request = RecieveRequest();

args/function = unMakePacket(request);

result = Add(1, 2);

response = MakePacket(result);

SendResponse(response);

這個5個步驟也很好理解：

（1）服務端收到字節流；

（2）將字節流轉爲函數名與參數；

（3）本地調用函數獲得結果；

（4）將結果轉變爲字節流；

（5）將字節流發送給調用方；

這個過程用一張圖描述以下：

調用方與服務方的處理步驟都是很是清晰。

這個過程存在最大的問題是什麼呢？

調用方太麻煩了，每次都要關注不少底層細節：

入參到字節流的轉化，即序列化應用層協議細節
socket發送，即網絡傳輸協議細節
socket接收
字節流到出參的轉化，即反序列化應用層協議細節

能不能調用層不關注這個細節？

能夠，RPC框架就是解決這個問題的，它可以讓調用方「像調用本地函數同樣調用遠端的函數（服務）」。

講到這裏，是否是對RPC，對序列化範序列化有點感受了？往下看，有更多的底層細節。

RPC框架的職責是什麼？

RPC框架，要向調用方屏蔽各類複雜性，要向服務提供方也屏蔽各種複雜性：

服務調用方client感受就像調用本地函數同樣，來調用服務
服務提供方server感受就像實現一個本地函數同樣，來實現服務

因此整個RPC框架又分爲client部分與server部分，實現上面的目標，把複雜性屏蔽，就是RPC框架的職責。

如上圖所示，業務方的職責是：

調用方A，傳入參數，執行調用，拿到結果
服務方B，收到參數，執行邏輯，返回結果

RPC框架的職責是，中間大藍框的部分：

client端：序列化、反序列化、鏈接池管理、負載均衡、故障轉移、隊列管理，超時管理、異步管理等等
server端：服務端組件、服務端收發包隊列、io線程、工做線程、序列化反序列化等

server端的技術你們瞭解的比較多，接下來重點講講client端的技術細節。

先來看看RPC-client部分的「序列化反序列化」部分。

爲何要進行序列化？

工程師一般使用「對象」來進行數據的操縱：

class User{

         std::String user_name;

         uint64_t user_id;

         uint32_t user_age;

};

User u = new User(「shenjian」);

u.setUid(123);

u.setAge(35);

但當須要對數據進行存儲或者傳輸時，「對象」就不這麼好用了，每每須要把數據轉化成連續空間的「二進制字節流」，一些典型的場景是：

數據庫索引的磁盤存儲：數據庫的索引在內存裏是b+樹，但這個格式是不可以直接存儲到磁盤上的，因此須要把b+樹轉化爲連續空間的二進制字節流，才能存儲到磁盤上
緩存的KV存儲：redis/memcache是KV類型的緩存，緩存存儲的value必須是連續空間的二進制字節流，而不可以是User對象
數據的網絡傳輸：socket發送的數據必須是連續空間的二進制字節流，也不能是對象

所謂序列化（Serialization），就是將「對象」形態的數據轉化爲「連續空間二進制字節流」形態數據的過程。這個過程的逆過程叫作反序列化。

怎麼進行序列化？

這是一個很是細節的問題，要是讓你來把「對象」轉化爲字節流，你會怎麼作？很容易想到的一個方法是xml（或者json）這類具備自描述特性的標記性語言：

<class name=」User」>

<element name=」user_name」 type=」std::String」 value=」shenjian」 />

<element name=」user_id」 type=」uint64_t」 value=」123」 />

<element name=」user_age」 type=」uint32_t」 value=」35」 />

</class>

規定好轉換規則，發送方很容易把User類的一個對象序列化爲xml，服務方收到xml二進制流以後，也很容易將其範序列化爲User對象。

畫外音：語言支持反射時，這個工做很容易。

第二個方法是本身實現二進制協議來進行序列化，仍是以上面的User對象爲例，能夠設計一個這樣的通用協議：

頭4個字節表示序號
序號後面的4個字節表示key的長度m
接下來的m個字節表示key的值
接下來的4個字節表示value的長度n
接下來的n個字節表示value的值
像xml同樣遞歸下去，直到描述完整個對象

上面的User對象，用這個協議描述出來多是這樣的：

第一行：序號4個字節（設0表示類名），類名長度4個字節（長度爲4），接下來4個字節是類名（」User」），共12字節
第二行：序號4個字節（1表示第一個屬性），屬性長度4個字節（長度爲9），接下來9個字節是屬性名（」user_name」），屬性值長度4個字節（長度爲8），屬性值8個字節（值爲」shenjian」），共29字節
第三行：序號4個字節（2表示第二個屬性），屬性長度4個字節（長度爲7），接下來7個字節是屬性名（」user_id」），屬性值長度4個字節（長度爲8），屬性值8個字節（值爲123），共27字節
第四行：序號4個字節（3表示第三個屬性），屬性長度4個字節（長度爲8），接下來8個字節是屬性名（」user_name」），屬性值長度4個字節（長度爲4），屬性值4個字節（值爲35），共24字節

整個二進制字節流共12+29+27+24=92字節。

實際的序列化協議要考慮的細節遠比這個多，例如：強類型的語言不只要還原屬性名，屬性值，還要還原屬性類型；複雜的對象不只要考慮普通類型，還要考慮對象嵌套類型等。不管如何，序列化的思路都是相似的。

序列化協議要考慮什麼因素？

無論使用成熟協議xml/json，仍是自定義二進制協議來序列化對象，序列化協議設計時都須要考慮如下這些因素。

解析效率：這個應該是序列化協議應該首要考慮的因素，像xml/json解析起來比較耗時，須要解析doom樹，二進制自定義協議解析起來效率就很高
壓縮率，傳輸有效性：一樣一個對象，xml/json傳輸起來有大量的xml標籤，信息有效性低，二進制自定義協議佔用的空間相對來講就小多了
擴展性與兼容性：是否可以方便的增長字段，增長字段後舊版客戶端是否須要強制升級，都是須要考慮的問題，xml/json和上面的二進制協議都可以方便的擴展
可讀性與可調試性：這個很好理解，xml/json的可讀性就比二進制協議好不少
跨語言：上面的兩個協議都是跨語言的，有些序列化協議是與開發語言緊密相關的，例如dubbo的序列化協議就只能支持Java的RPC調用
通用性：xml/json很是通用，都有很好的第三方解析庫，各個語言解析起來都十分方便，上面自定義的二進制協議雖然可以跨語言，但每一個語言都要寫一個簡易的協議客戶端

有哪些常見的序列化方式？

xml/json：解析效率，壓縮率都較差，擴展性、可讀性、通用性較好
thrift
protobuf：Google出品，必屬精品，各方面都不錯，強烈推薦，屬於二進制協議，可讀性差了點，但也有相似的to-string協議幫助調試問題
Avro
CORBA
mc_pack：懂的同窗就懂，不懂的就不懂了，09年用過，傳說各方面都超越protobuf，懂行的同窗能夠說一下現狀
…

RPC-client除了：

序列化反序列化的部分（上圖中的一、4）

還包含：

發送字節流與接收字節流的部分（上圖中的二、3）

這一部分，又分爲同步調用與異步調用兩種方式，下面一一來進行介紹。

畫外音：搞通透RPC-client確實不容易。

同步調用的代碼片斷爲：

Result = Add(Obj1, Obj2);// 獲得Result以前處於阻塞狀態

異步調用的代碼片斷爲：

Add(Obj1, Obj2, callback);// 調用後直接返回，不等結果

處理結果經過回調爲：

callback(Result){// 獲得處理結果後會調用這個回調函數

…

}

這兩類調用，在RPC-client裏，實現方式徹底不同。

RPC-client同步調用架構如何？

所謂同步調用，在獲得結果以前，一直處於阻塞狀態，會一直佔用一個工做線程，上圖簡單的說明了一下組件、交互、流程步驟：

左邊大框，表明了調用方的一個工做線程
左邊粉色中框，表明了RPC-client組件
右邊橙色框，表明了RPC-server
藍色兩個小框，表明了同步RPC-client兩個核心組件，序列化組件與鏈接池組件
白色的流程小框，以及箭頭序號1-10，表明整個工做線程的串行執行步驟：

1）業務代碼發起RPC調用：

Result=Add(Obj1,Obj2)

2）序列化組件，將對象調用序列化成二進制字節流，可理解爲一個待發送的包packet1；

3）經過鏈接池組件拿到一個可用的鏈接connection；

4）經過鏈接connection將包packet1發送給RPC-server；

5）發送包在網絡傳輸，發給RPC-server；

6）響應包在網絡傳輸，發回給RPC-client；

7）經過鏈接connection從RPC-server收取響應包packet2；

8）經過鏈接池組件，將conneciont放回鏈接池；

9）序列化組件，將packet2範序列化爲Result對象返回給調用方；

10）業務代碼獲取Result結果，工做線程繼續往下走；

畫外音：請對照架構圖中的1-10步驟閱讀。

鏈接池組件有什麼做用？

RPC框架鎖支持的負載均衡、故障轉移、發送超時等特性，都是經過鏈接池組件去實現的。

典型鏈接池組件對外提供的接口爲：

int ConnectionPool::init(…);

Connection ConnectionPool::getConnection();

int ConnectionPool::putConnection(Connection t);

init作了些什麼？

和下游RPC-server（通常是一個集羣），創建N個tcp長鏈接，即所謂的鏈接「池」。

getConnection作了些什麼？

從鏈接「池」中拿一個鏈接，加鎖（置一個標誌位），返回給調用方。

putConnection作了些什麼？

將一個分配出去的鏈接放回鏈接「池」中，解鎖（也是置一個標誌位）。

如何實現負載均衡？

鏈接池中創建了與一個RPC-server集羣的鏈接，鏈接池在返回鏈接的時候，須要具有隨機性。

如何實現故障轉移？

鏈接池中創建了與一個RPC-server集羣的鏈接，當鏈接池發現某一個機器的鏈接異常後，須要將這個機器的鏈接排除掉，返回正常的鏈接，在機器恢復後，再將鏈接加回來。

如何實現發送超時？

由於是同步阻塞調用，拿到一個鏈接後，使用帶超時的send/recv便可實現帶超時的發送和接收。

總的來講，同步的RPC-client的實現是相對比較容易的，序列化組件、鏈接池組件配合多工做線程數，就可以實現。

遺留問題，工做線程數設置爲多少最合適？

這個問題在《工做線程數究竟要設置爲多少最合適？》中討論過，此處再也不深究。

RPC-client異步回調架構如何？

所謂異步回調，在獲得結果以前，不會處於阻塞狀態，理論上任什麼時候間都沒有任何線程處於阻塞狀態，所以異步回調的模型，理論上只須要不多的工做線程與服務鏈接就可以達到很高的吞吐量，如上圖所示：

左邊的框框，是少許工做線程（少數幾個就好了）進行調用與回調
中間粉色的框框，表明了RPC-client組件
右邊橙色框，表明了RPC-server
藍色六個小框，表明了異步RPC-client六個核心組件：上下文管理器，超時管理器，序列化組件，下游收發隊列，下游收發線程，鏈接池組件
白色的流程小框，以及箭頭序號1-17，表明整個工做線程的串行執行步驟：

1）業務代碼發起異步RPC調用；

Add(Obj1,Obj2, callback)

2）上下文管理器，將請求，回調，上下文存儲起來；

3）序列化組件，將對象調用序列化成二進制字節流，可理解爲一個待發送的包packet1；

4）下游收發隊列，將報文放入「待發送隊列」，此時調用返回，不會阻塞工做線程；

5）下游收發線程，將報文從「待發送隊列」中取出，經過鏈接池組件拿到一個可用的鏈接connection；

6）經過鏈接connection將包packet1發送給RPC-server；

7）發送包在網絡傳輸，發給RPC-server；

8）響應包在網絡傳輸，發回給RPC-client；

9）經過鏈接connection從RPC-server收取響應包packet2；

10）下游收發線程，將報文放入「已接受隊列」，經過鏈接池組件，將conneciont放回鏈接池；

11）下游收發隊列裏，報文被取出，此時回調將要開始，不會阻塞工做線程；

12）序列化組件，將packet2範序列化爲Result對象；

13）上下文管理器，將結果，回調，上下文取出；

14）經過callback回調業務代碼，返回Result結果，工做線程繼續往下走；

若是請求長時間不返回，處理流程是：

15）上下文管理器，請求長時間沒有返回；

16）超時管理器拿到超時的上下文；

17）經過timeout_cb回調業務代碼，工做線程繼續往下走；

畫外音：請配合架構圖仔細看幾遍這個流程。

序列化組件和鏈接池組件上文已經介紹過，收發隊列與收發線程比較容易理解。下面重點介紹上下文管理器與超時管理器這兩個總的組件。

爲何須要上下文管理器？

因爲請求包的發送，響應包的回調都是異步的，甚至不在同一個工做線程中完成，須要一個組件來記錄一個請求的上下文，把請求-響應-回調等一些信息匹配起來。

如何將請求-響應-回調這些信息匹配起來？

這是一個頗有意思的問題，經過一條鏈接往下游服務發送了a，b，c三個請求包，異步的收到了x，y，z三個響應包：

怎麼知道哪一個請求包與哪一個響應包對應？

怎麼知道哪一個響應包與哪一個回調函數對應？

能夠經過「請求id」來實現請求-響應-回調的串聯。

整個處理流程如上，經過請求id，上下文管理器來對應請求-響應-callback之間的映射關係：

1）生成請求id；

2）生成請求上下文context，上下文中包含發送時間time，回調函數callback等信息；

3）上下文管理器記錄req-id與上下文context的映射關係；

4）將req-id打在請求包裏發給RPC-server；

5）RPC-server將req-id打在響應包裏返回；

6）由響應包中的req-id，經過上下文管理器找到原來的上下文context；

7）從上下文context中拿到回調函數callback；

8）callback將Result帶回，推進業務的進一步執行；

如何實現負載均衡，故障轉移？

與同步的鏈接池思路相似，不一樣之處在於：

同步鏈接池使用阻塞方式收發，須要與一個服務的一個ip創建多條鏈接
異步收發，一個服務的一個ip只須要創建少許的鏈接（例如，一條tcp鏈接）

如何實現超時發送與接收？

超時收發，與同步阻塞收發的實現就不同了：

同步阻塞超時，能夠直接使用帶超時的send/recv來實現
異步非阻塞的nio的網絡報文收發，因爲鏈接不會一直等待回包，超時是由超時管理器實現的

超時管理器如何實現超時管理？

超時管理器，用於實現請求回包超時回調處理。

每個請求發送給下游RPC-server，會在上下文管理器中保存req-id與上下文的信息，上下文中保存了請求不少相關信息，例如req-id，回包回調，超時回調，發送時間等。

超時管理器啓動timer對上下文管理器中的context進行掃描，看上下文中請求發送時間是否過長，若是過長，就再也不等待回包，直接超時回調，推進業務流程繼續往下走，並將上下文刪除掉。

若是超時回調執行後，正常的回包又到達，經過req-id在上下文管理器裏找不到上下文，就直接將請求丟棄。

畫外音：由於已經超時處理了，沒法恢復上下文。

不管如何，異步回調和同步回調相比，除了序列化組件和鏈接池組件，會多出上下文管理器，超時管理器，下游收發隊列，下游收發線程等組件，而且對調用方的調用習慣有影響。

畫外音：編程習慣，由同步變爲了回調。

異步回調能提升系統總體的吞吐量，具體使用哪一種方式實現RPC-client，能夠結合業務場景來選取。

總結

什麼是RPC調用？

像調用本地函數同樣，調用一個遠端服務。

爲何須要RPC框架？

RPC框架用於屏蔽RPC調用過程當中的序列化，網絡傳輸等技術細節。讓調用方只專一於調用，服務方只專一於實現調用。

什麼是序列化？爲何須要序列化？

把對象轉化爲連續二進制流的過程，叫作序列化。磁盤存儲，緩存存儲，網絡傳輸只能操做於二進制流，因此必須序列化。

同步RPC-client的核心組件是什麼？

同步RPC-client的核心組件是序列化組件、鏈接池組件。它經過鏈接池來實現負載均衡與故障轉移，經過阻塞的收發來實現超時處理。

異步RPC-client的核心組件是什麼？

異步RPC-client的核心組件是序列化組件、鏈接池組件、收發隊列、收發線程、上下文管理器、超時管理器。它經過「請求id」來關聯請求包-響應包-回調函數，用上下文管理器來管理上下文，用超時管理器中的timer觸發超時回調，推動業務流程的超時處理。

思路比結論重要。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。