萬字長文 | MongoDB絡傳輸處理源碼實現及性能調優

時間 2020-06-20

原文原文鏈接

本文來自OPPO互聯網基礎技術團隊，轉載請註名做者。同時歡迎關注咱們的公衆號：OPPO_tech，與你分享OPPO前沿互聯網技術及活動。

開源mongodb代碼規模數百萬行，本篇文章內容主要分析mongodb網絡傳輸模塊內部實現及其性能調優方法，學習網絡IO處理流程，體驗不一樣工做線程模型性能極致設計原理。另一個目的就是引導你們快速進行百萬級別規模源碼閱讀，作到不一樣大工程源碼」觸類旁通」快速閱讀的目的。react

此外，mognodb網絡工做線程模型設計很是好，不只很是值得數據庫相關研發人員學習，中間件、分佈式、高併發、服務端等相關研發人員也能夠借鑑，極力推薦你們學習。linux

1. 如何閱讀數百萬級大工程內核源碼

Mongodb內核源碼由第三方庫third_party和mongodb服務層源碼組成，其中mongodb服務層代碼在不一樣模塊實現中依賴不一樣的third_party庫，第三方庫是mongodb服務層代碼實現的基礎(例如:網絡底層IO實現依賴asio-master庫, 底層存儲依賴wiredtiger存儲引擎庫)，其中第三方庫也會依賴部分其餘庫(例如：wiredtiger庫依賴snappy算法庫，asio-master依賴boost庫)。c++

雖然Mongodb內核源碼數百萬行，工程量巨大，可是mongodb服務層代碼實現層次很是清晰，代碼目錄結構、類命名、函數命名、文件名命名都很是一目瞭然，充分體現了10gen團隊的專業精神。git

說明：mongodb內核除第三方庫third_party外的代碼，這裏統稱爲mongodb服務層代碼。github

本文以mongodb服務層transport實現爲例來講明如何快速閱讀整個mongodb代碼，咱們在走讀代碼前，建議遵循以下準則：算法

1.1 熟悉mongodb基本功能和使用方法

首先，咱們須要熟悉mongodb的基本功能，明白mongodb是作什麼用的，用在什麼地方，這樣才能體現mongodb的真正價值。此外，咱們須要提早搭建一個mongodb集羣玩一玩，這樣也能夠進一步促使咱們瞭解mongodb內部的一些經常使用基本功能。千萬不要急於求成，若是連mongodb是作什麼的都不知道，或者連mongodb的運維操做方法都沒玩過，直接讀取代碼會很是不適合，沒有目的的走讀代碼不利於分析整個代碼，同時閱讀代碼過程會很是痛苦。mongodb

1.2 下載代碼編譯源碼

熟悉了mongodb的基本功能，並搭建集羣簡單體驗後，咱們就能夠從github下載源碼，本身編譯源碼生成二進制文件，編譯文檔存放於docs/building.md 代碼目錄中，源碼編譯步驟以下:shell

下載對應releases中對應版本的源碼
進入對於目錄，參考docs/building.md文件內容進行相關依賴工具安裝
執行buildscripts/scons.py編譯出對應二進制文件，也能夠直接scons mongod mongos這樣編譯。
編譯成功後的生產可執行文件存放於./build/opt/mongo/目錄

在正在編譯代碼並運行的過程當中，發現如下兩個問題：數據庫

1)編譯出的二進制文件佔用空間很大，以下圖所示：segmentfault

從上圖能夠看出，經過strip處理工具處理後，二進制文件大小已經和官方二進制包大小同樣了。

2)在一些低版本操做系統運行的時候出錯，找不到對應stdlib庫，以下圖所示：

如上圖所示，當編譯出的二進制文件拷貝到線上運行後，發現沒法運行，提示libstdc庫找不到。緣由是咱們編譯代碼時候依賴的stdc庫版本比其餘操做系統上面的stdc庫版本更高，形成了不兼容。

解決辦法： 編譯的時候編譯腳本中帶上-static-libstdc++，把stdc庫經過靜態庫的方式進行編譯，而不是經過動態庫方式。

1.3 瞭解代碼日誌模塊使用方法，試着加打印調試

因爲前期咱們對代碼總體實現不熟悉，不知道各個接口的調用流程，這時候就能夠經過加日誌打印進行調試。Mongodb的日誌模塊設計的比較完善，從日誌中能夠很明確的看出由那個功能模塊打印日誌，同時日誌模塊有多種打印級別。

1)日誌打印級別設置

啓動參數中verbose設置日誌打印級別，日誌打印級別設置方法以下：

Mongod -f ./mongo.conf -vvvv

這裏的v越多，代表日誌打印級別設置的越低，也就會打印更多的日誌。一個v表示只會輸出LOG(1)日誌，-vv表示LOG(1) LOG(2)都會寫日誌。

2)如何在.cpp文件中使用日誌模塊記錄日誌

若是須要在一個新的.cpp文件中使用日誌模塊打印日誌，須要進行以下步驟操做：

添加宏定義 #define MONGO_LOG_DEFAULT_COMPONENT ::mongo::logger::LogComponent::kExecutor
使用LOG(N)或者log()來記錄想要輸出的日誌內容，其中LOG(N)的N表明日誌打印級別，log()對應的日誌全記錄到文件。

例如: LogComponent::kExecutor表明executor模塊相關的日誌，參考log_component.cpp日誌模塊文件實現，對應到日誌文件內容以下：

1.4 學會用gdb調試mongodb代碼

Gdb是linux系統環境下優秀的代碼調試工具，支持設置斷點、單步調試、打印變量信息、獲取函數調用棧信息等功能。gdb工具能夠綁定某個線程進行線程級調試，因爲mongodb是多線程環境，所以在用gdb調試前，咱們須要肯定調試的線程號，mongod進程包含的線程號及其對應線程名查看方法以下:

注意： 在調試mongod工做線程處理流程的時候，不要選擇adaptive動態線程池模式，由於線程可能由於流量低引發工做線程不飽和而被銷燬，從而形成調試過程由於線程銷燬而中斷，synchronous線程模式是一個連接一個線程，只要咱們不關閉這個連接，線程就會一直存在，不會影響咱們理解mongodb服務層代碼實現邏輯。 synchronous線程模式調試的時候能夠經過mongo shell連接mongod服務端端口來模擬一個連接，所以調試過程相對比較可控。

在對工做線程調試的時候，發現gdb沒法查找到mongod進程的符號表，沒法進行各類gdb功能調試，以下圖所示：

上述gdb沒法attach到指定線程調試的緣由是沒法加載二進制文件符號表，這是由於編譯的時候沒有加上-g選項引發，mongodb經過SConstruct腳原本進行scons編譯，要啓編譯出新的二進制文件後，就能夠gdb調試了，以下圖所示，能夠很方便的定位到某個函數以前的調用棧信息，並進行單步、打印變量信息等調試：

1.5 熟悉代碼目錄結構、模塊細化拆分

在進行代碼閱讀前還有很重要的一步就是熟悉代碼目錄及文件命名實現，mongodb服務層代碼目錄結構及文件命名都有很嚴格的規範。下面以truansport網絡傳輸模塊爲例，transport模塊的具體目錄文件結構：

從上面的文件分佈內容，能夠清晰的看出，整個目錄中的源碼實現文件大致能夠分爲以下幾個部分：

message_compressor_*網絡傳輸數據壓縮子模塊
service_entry_point*服務入口點子模塊
service_executor*服務運行子模塊，即線程模型子模塊
service_state_machine*服務狀態機處理子模塊
Session*回話信息子模塊
Ticket*數據分發子模塊
transport_layer*套接字處理及傳輸層模式管理子模塊

經過上面的拆分，整個大的transport模塊實現就被拆分紅了7個小模塊，這7個小的子模塊各自負責對應功能實現，同時各個模塊相互銜接，總體實現網絡傳輸處理過程的總體實現，下面的章節將就這些子模塊進行簡單功能說明。

1.6 從main入口開始大致走讀代碼

前面5個步驟事後，咱們已經熟悉了mongodb編譯調試以及transport模塊的各個子模塊的相關代碼文件實現及大致子模塊做用。至此，咱們能夠開始走讀代碼了，mongos和mongod的代碼入口分別在mongoSMain()和mongoDbMain()，從這兩個入口就能夠一步一步瞭解mongodb服務層代碼的總體實現。

注意： 走讀代碼前期不要深刻各類細節實現，大致瞭解代碼實現便可，先大致弄明白代碼中各個模塊功能由那些子模塊實現，千萬不要深究細節。

1.7 總結

本章節主要給出了數百萬級mongodb內核代碼閱讀的一些建議，整個過程能夠總結爲以下幾點：

提早了解mongodb的做用及工做原理。
本身搭建集羣提早學習下mongodb集羣的經常使用運維操做，能夠進一步幫助理解mongodb的功能特性，提高後期代碼閱讀的效率。
本身下載源碼編譯二進制可執行文件，同時學會使用日誌模塊，經過加日誌打印的方式逐步開始調試。
學習使用gdb代碼調試工具調試線程的運行流程，這樣能夠更進一步的促使快速學習代碼處理流程，特別是一些複雜邏輯，能夠大大提高走讀代碼的效率。
正式走讀代碼前，提早了解各個模塊的代碼目錄結構，把一個大模塊拆分紅各個小模塊，先大致瀏覽各個模塊的代碼實現。
前期走讀代碼千萬不要深刻細節，捋清楚各個模塊的大致功能做用後再開始一步一步的深刻細節，瞭解深層次的內部實現。
從main()入口逐步開始走讀代碼，結合log日誌打印和gdb調試。
跳過總體流程中不熟悉的模塊代碼，只走讀本次想弄明白的模塊代碼實現。

2. mongodb內核網絡傳輸transport模塊實現原理

從1.5章節中，咱們把transport功能模塊細化拆分紅了網絡傳輸數據壓縮子模塊、服務入口子模塊、線程模型子模塊、狀態機處理子模塊、session會話信息子模塊、數據分發子模塊、套接字處理和傳輸管理子模塊，總共七個子模塊。

實際上mongodb服務層代碼的底層網絡IO實現依賴asio庫完成，所以transport功能模塊應該是7+1個子模塊構成，也就是服務層代碼實現由8個子模塊支持。

2.1 asio網絡IO庫實現原理

Asio是一個優秀網絡庫，依賴於boost庫的部分實現，支持linux、windos、unix等多平臺，mongodb基於asio庫來實現網絡IO及定時器處理。asio庫因爲爲了支持多平臺，在代碼實現中用了不少C++的模板，同時用了不少C++的新語法特性，所以總體代碼可讀性相比mongodb服務層代碼差不少。

服務端網絡IO異步處理流程大致以下：

調用socket()建立一個套接字，獲取一個socket描述符。
調用bind()綁定套接字，同時經過listen()來監聽客戶端連接，註冊該socket描述符到epoll事件集列表，等待accept對應的新鏈接讀事件到來。
經過epoll_wait獲取到accept對應的讀事件信息，而後調用accept()來接受客戶的鏈接，並獲取一個新的連接描述符new_fd。
註冊新的new_fd到epoll事件集列表，當該new_fd描述符上有讀事件到來，因而經過epoll_wait獲取該事件，開始該fd上的數據讀取。
讀取數據完畢後，開始內部處理，處理完後發送對應數據到客戶端。若是一次write數據到內核協議棧寫太多，形成協議棧寫滿，則添加寫事件到epoll事件列表。

服務端網絡IO同步方式處理流程和異步流程大同小異，少了epoll註冊和epoll事件通知過程，直接同步調用accept()、recv()、send()進行IO處理。

同步IO處理方式相對比較簡單，下面僅分析和mongodb服務層transport模塊結合比較緊密的asio異步IO實現原理。

Mongodb服務層用到的Asio庫功能中最重要的幾個結構有io_context、scheduler、epoll_reactor。Asio把網絡IO處理任務、狀態機調度任務作爲2種不一樣操做，分別由兩個繼承自operation的類結構管理，每種類型的操做也就是一個任務task。io_context、scheduler、epoll_reactor最重要的功能就是管理和調度這些task有序而且高效的運行。

2.1.1 io_context類實現及其做用

io_context 上下文類是mongodb服務層和asio網絡庫交互的樞紐，是mongodb服務層和asio庫進行operation任務交互的入口。該類負責mongodb相關任務的入隊、出隊，並與scheduler調度處理類配合實現各類任務的高效率運行。Mongodb服務層在實現的時候，accept新鏈接任務使用_acceptorIOContext這個IO上下文成員實現，數據分發及其相應回調處理由_workerIOContext上下文成員實現。

該類的幾個核心接口功能以下表所示：

Io_context類成員/函數名	功能	備註說明
impl_type& impl_;	Mongodb對應的type類型爲scheduler	經過該成員來調用scheduler調度類的接口
io_context::run()	負責accept對應異步回調處理	1.mongodb中該接口只針對accept對應IO異步處理 2.調用scheduler::run()進行accept異步讀操做
io_context::stop()	中止IO調度處理	調用scheduler::stop()接口
io_context::run_one_until()	1. 從全局隊列上獲取一個任務執行 2. 若是全局隊列爲空，則調用epoll_wait()獲取網絡IO事件處理	調用schedule::wait_one()
io_context::post()	任務入隊到全局隊列	調用scheduler::post_immediate_completion()
io_context::dispatch()	1.若是調用該接口的線程已經運行過全局隊列中的任務，則直接繼續由本線程運行該入隊的任務 2.若是不知足條件1條件，則直接入隊到全局隊列，等待調度執行	若是條件1知足，則直接由本線程執行若是條件1不知足，則調用scheduler::do_dispatch ()

總結：

從上表的分析能夠看出，和mongodb直接相關的幾個接口最終都是調用schedule類的相關接口，整個實現過程參考下一節scheduler調度實現模塊。
上表中的幾個接口按照功能不一樣，能夠分爲入隊型接口(poll、dispatch)和出隊型接口(run_for、run、run_one_for)。
按照和io_context的關聯性不一樣，能夠分爲accept相關io(_acceptorIOContext)處理的接口(run、stop)和新連接fd對應Io(_workerIOContext)數據分發相關處理及回調處理的接口(run_for、run_one_for、poll、dispatch)。
io_context上下文的上述接口，除了dispatch在某些狀況下直接運行handler外，其餘接口最終都會間接調用scheduler調度類接口。

2.1.2 asio調度模塊scheduler實現

上一節的io_context上下文中提到mongodb操做的io上下文最終都會調用scheduler的幾個核心接口，io_context只是起銜接mongodb和asio庫的連接橋樑。scheduler類主要工做在於完成任務調度，該類和mongodb相關的幾個主要成員變量及接口以下表：

scheduler類主要成員/接口	功能	備註說明
mutable mutex mutex_;	互斥鎖，全局隊列訪問保護	多線程從全局隊列獲取任務的時候加鎖保護
op_queue<operation> op_queue_;	全局任務隊列，全局任務和網絡事件相關任務都添加到該隊列	3.1.1中的5種類型的任務都入隊到了該全局隊列
bool stopped_;	線程是否可調度標識	爲true後，將再也不處理epoll相關事件，參考scheduler::do_run_one
event wakeup_event_;	喚醒等待鎖得線程	實際event由信號量封裝
task_operation task_operation_;	特殊的operation	在鏈表中沒進行一次epoll獲取到IO任務加入全局隊列後，都會緊接着添加一個特殊operation
reactor* task_;	也就是epoll_reactor	藉助epoll實現網絡事件異步處理
atomic_count outstanding_work_;	套接字描述符個數	accept獲取到的連接數fd個數+1(定時器fd)
scheduler::run()	循環處理epoll獲取到的accept事件信息	循環調用scheduler::do_run_one()接口
scheduler::do_dispatch()	任務入隊	任務入隊到全局隊列op_queue_
scheduler::do_wait_one()	任務出隊執行	若是隊列爲空則獲取epoll事件集對應的網絡IO任務放入全局op_queue_隊列
scheduler::restart()	從新啓用調度	實際上就是修改stopped_標識爲false
scheduler::stop_all_threads()	中止調度	實際上就是修改stopped_標識爲true

2.1.3 operation任務隊列

從前面的分析能夠看出，一個任務對應一個operation類結構，asio異步實現中schduler調度的任務分爲IO處理任務(accept處理、讀io處理、寫io處理、網絡IO處理回調處理)和全局狀態機任務，總共2種任務小類。

此外，asio還有一種特殊的operation，該Operastion什麼也不作，只是一個特殊標記。網絡IO處理任務、狀態機處理任務、特殊任務這三類任務分別對應三個類結構，分別是：reactor_op、completion_handler、task_operation_，這三個類都會繼承基類operation。

1. operation基類實現

operation基類實際上就是scheduler_operation類，經過typedef scheduler_operation operation指定，是其餘三個任務的父類，其主要實現接口以下：

operation類主要成員/接口	功能	備註說明
unsigned int task_result_	Epoll_wait獲取到的事件位圖信息記錄到該結構中	在descriptor_state::do_complete中取出位圖上的事件信息作底層IO讀寫處理
func_type func_;	須要執行的任務
scheduler_operation::complete()	執行func_()	任務的內容在func()中運行

2. completion_handler狀態機任務

當mongodb經過listener線程接受到一個新連接後，會生成一個狀態機調度任務，而後入隊到全局隊列op_queue_，worker線程從全局隊列獲取到該任務後調度執行，從而進入狀態機調度流程，在該流程中會觸發epoll相關得網絡IO註冊及異步IO處理。一個全局狀態機任務對應一個completion_handler類，該類主要成員及接口說明以下表所示：

completion_handler類主要成員/接口	功能	備註說明
Handler handler_;	全局狀態機任務函數	這個handler就至關於一個任務，其實是一個函數
completion_handler(Handler& h)	構造初始化	啓用該任務，等待調度
completion_handler::do_complete()	執行handler_回調	任務的內容在handler_()中運行

completion_handler狀態機任務類實現過程比較簡單，就是初始化和運行兩個接口。全局任務入隊的時候有兩種方式，一種是io_context::dispatch方式，另外一種是io_context::post。從前面章節對這兩個接口的代碼分析能夠看出，任務直接入隊到全局隊列op_queue_中，而後工做線程經過scheduler::do_wait_one從隊列獲取該任務執行。

注意： 狀態機任務入隊由Listener線程(新連接到來的初始狀態機任務)和工做線程(狀態轉換任務)共同完成，任務出隊調度執行由mongodb工做線程執行，狀態機具體任務內容在後面《狀態機實現》章節實現。

3. 網絡IO事件處理任務

網絡IO事件對應的Opration任務最終由reactor_op類實現，該類主要成員及接口以下：

reactor_op類主要成員/接口	功能	備註說明
asio::error_code ec_;	全局狀態機任務函數	這個handler就至關於一個任務，其實是一個函數
std::size_t bytes_transferred_;	讀取或者發送的數據字節數	Epoll_wait返回後獲取到對應的讀寫事件，而後進行數據分發操做
enum status;	底層數據讀寫狀態	標識讀寫數據的狀態
perform_func_type perform_func_;	底層IO操做的函數指針	perform()中運行
status perform()；	運行perform_func_函數	perform實際上就是數據讀寫的底層實現
reactor_op(perform_func_type perform_func, func_type complete_func)	類初始化	這裏有兩個func: 1. 底層數據讀寫實現的接口，也就是perform_func 2. 讀取或者發送一個完整mongodb報文的回調接口，也就是complete_func

從reactor_op類能夠看出，該類的主要兩個函數成員：perform_func_和complete_func。其中perform_func_函數主要負責異步網絡IO底層處理，complete_func用於獲取到一個新連接、接收或者發送一個完整mongodb報文後的後續回調處理邏輯。

perform_func_具體功能包含以下三種以下：

經過epoll事件集處理底層accept獲取新鏈接fd。
fd上的數據異步接收
fd上的數據異步發送

針對上面的三個網絡IO處理功能，ASIO在實現的時候，分別經過三個不一樣的類(reactive_socket_accept_op_base、reactive_socket_recv_op_base、reactive_socket_send_op_base)實現，這三個類都繼承父類reactor_op。

這三個類的功能總結以下表所示：

類名	功能	說明
reactive_socket_accept_op_base	1. Accept()系統調用獲取新fd 2. 獲取到一個新fd後的mongodb層邏輯回調處理	Accept()系統調用由perform_func()函數處理獲取到新連接後的邏輯回調由complete_func執行
reactive_socket_recv_op_base	1. 讀取一個完整mongodb報文讀取 2. 讀取完整報文後的mongodb服務層邏輯回調處理	從一個連接上讀取一個完整mongodb報文讀取由perform_func()函數處理讀取完整報文後的mongodb服務層邏輯回調處理由complete_func執行
reactive_socket_send_op_base	1. 發送一個完整的mongodb報文 2. 發送完一個完整mongodb報文後的mongodb服務層邏輯回調處理	Accept()系統調用由perform_func()函數處理獲取到新連接後的邏輯回調由complete_func執行

總結： asio在實現的時候，把accept處理、數據讀、數據寫分開處理，都繼承自公共基類reactor_op，該類由兩個操做組成：底層IO操做和回調處理。其中，asio的底層IO操做最終由epoll_reactor類實現，回調操做最終由mongodb服務層指定，底層IO操做的回調映射表以下：

底層IO操做類型	Mongodb服務層回調	說明
Accept(reactive_socket_accept_op_base)	ServiceEntryPointImpl::startSession，回調中進入狀態機任務流程	Listener線程獲取到一個新連接後mongodb的回調處理
Recv(reactive_socket_recv_op_base)	ServiceStateMachine::_sourceCallback，回調中進入狀態機任務流程	接收一個完整mongodb報文的回調處理
Send(reactive_socket_send_op_base)	ServiceStateMachine::_sinkCallback，回調中進入狀態機任務流程	發送一個完整mongodb報文的回調處理

說明： 網絡IO事件處理任務實際上在狀態機任務內運行，也就是狀態機任務中調用asio庫進行底層IO事件運行處理。

4. 特殊任務task_operation

前面提到，ASIO庫中還包含一種特殊的task_operation任務，asio經過epoll_wait獲取到一批IO事件後，會添加到op_queue_全局隊列，工做線程從隊列取出任務有序執行。每次經過epoll_wait獲取到IO事件信息後，除了添加這些讀寫事件對應的底層IO處理任務到全局隊列外，每次還會額外生成一個特殊task_operation任務添加到隊列中。

爲什麼引入一個特殊任務的Opration？

工做線程變量全局op_queue_隊列取出任務執行，若是從隊列頭部取出的是特殊Op操做，就會立馬觸發獲取epoll網絡事件信息，避免底層網絡IO任務長時間不被處理引發的"飢餓"狀態，保證狀態機任務和底層IO任務都能」平衡」運行。

asio庫底層處理實際上由epoll_reactor類實現，該類主要負責epoll相關異步IO實現處理，鑑於篇幅epoll reactor相關實現將在後續《mongodb內核源碼實現及調優系列》相關章節詳細分析。

2.2 message_compressor網絡傳輸數據壓縮子模塊

網絡傳輸數據壓縮子模塊主要用於減小網絡帶寬佔用，經過CPU來換取IO消耗，也就是以更多CPU消耗來減小網絡IO壓力。

鑑於篇幅，該模塊的詳細源碼實現過程將在《mongodb內核源碼實現及調優系列》相關章節分享。