版權聲明:本文由熊訓德原創文章,轉載請註明出處:
文章原文連接:https://www.qcloud.com/community/article/221git
來源:騰雲閣 https://www.qcloud.com/communitygithub
Hbase是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。本文檔用於說明hbase的wal簡單原理以及從源碼的角度分析一個「寫」請求是如何到達wal,wal又會作哪些請求。api
本文檔用於說明hbase的wal簡單原理以及從源碼的角度分析一個「寫」請求是如何到達wal,wal又會作哪些請求。特別說明Hbase不一樣版本的wal的源碼差別比較大,可是原理幾乎相似,本文檔是採用當前線上使用版本(Hbase1.1.3)來分析的。緩存
有關hbase的wal基本原理在《Hbase權威指南》以及網絡教程中敘述的算比較清晰詳盡,在此只作簡單的敘述。安全
hbase是基於LSM樹的存儲系統,它使用日誌文件和內存存儲來的存儲架構將隨機寫轉換成順序寫,以此保證穩定的數據插入速率。而這裏說的日誌文件便是wal文件,用於在服務器崩潰後回滾還沒持久化的數據。服務器
WAL(Write-Ahead-Log)是HBase的RegionServer在處理數據插入和刪除的過程當中用來記錄操做內容的一種日誌。大體過程以下圖所示,首先客戶端啓動一個操做來修改數據,每個修改都封裝到KeyValue對象實例中,並經過RPC調用發送到含有匹配Region的HRegionServer。一旦KeyValue到達,它們就會被髮送管理相應行的HRegion實例。數據被寫到WAL,而後被放入到實際擁有記錄的存儲文件的MemStore中。同時還會檢查MemStore是否滿了,若是滿了就會被刷寫到磁盤中去。
網絡
本節將從源碼角度如上所簡述分析hbase的一個「寫」過程。架構
其中基本調用過程以下:
併發
從時序圖中能夠大致看到mvc
首先client端先把put/delete等api操做封裝成List,而後使用protobuf協議使用rpc服務發送到對應的HRegionServer,HRegionServer調用execRegionServerService()方法解析發送過來的protobuf協議二進制包,經過serviceName找到相應的service並調用callMethod方法執行:
put/delet等「寫」操做會使用MultiRowMutationService這個service來做用,在service中將會調用mutateRows()方法去處理List,真正調用mutateRows()的是MultiRowMutationService的一個實現類MultiRowMutationEndpoint,MultiRowMutationEndpoint類實現了hbase的行事務。從MultiRowMutationEndpoint類文檔能夠看出其主要做用:
mutateRows()方法會row所找到對應的Region,並調用其對應實例HRegion的mutateRowsWithLocks方法具體實現寫入過程。
在HRegion類中mutateRowsWithLocks方法查看有沒執行器(RowProcessor),若是沒有則建立一個再調用processRowsWithLocks()方法。processRowsWithLocks方法是整個「寫」操做最核心的方法:把寫wal,刷wal以及寫memstore流程都在這裏流轉。在這裏包括異常處理一共有14步之多。
它的原型以下:
其中processor的實現類是MultiRowMutationProcessor。
雖然processRowsWithLocks方法步驟不少,可是最關鍵的是以下幾步:
在這裏,HRegion將會對Region加鎖,加鎖的方式是把全部寫row相關的行鎖都拿到的二階段鎖方式。
在這裏將會把List放入,可是這裏並非真正的放到了memstore,真正的執行會等sync()方法把日誌或者說WALEdite真正刷入磁盤後,經過mvcc版本號異步通知再把數據寫到memstore。
在這裏HRegion會把封裝好的WALEdit使用FSHLog的append方法追加到日誌文件,可是因爲文件自己在內存中有緩存的緣由,還須要調用sync刷入磁盤。這裏只是把WALEdit數據放到一個LMAX Disrutpor RingBuffer中。這個RingBuffer是一個線程安全的消息隊列,在wal中主要用於有效且安全的協調多個生產者一個消費者模型。其中多個生產者就是這個append方法,將會有不少client產生數據都放到這個消息隊列中,可是隻有一個消費者從這個隊列中取數據並調用sync方法把數據從緩存刷到磁盤,這樣能保證WAL日誌併發寫入時日誌的全局惟一順序。
(其中有關LMAX Disrutpor RingBuffer能夠參看文章,介紹的很是詳盡:https://github.com/LMAX-Exchange/disruptor/wiki/Introduction)
在這步中會會調用syncOrDefer方法,除了metaRegion,syncOrDefer將根據client設置的持久化等級選擇是否調用wal(FSHLog)的sync方法
HBase中能夠經過設置WAL的持久化等級決定是否開啓WAL機制、以及HLog的落盤方式。
client能夠經過設置WAL持久化等級,如代碼:put.setDurability(Durability. SYNC_WAL );
1.1.3版本的WAL的持久化等級分爲以下四個等級:
USER_DEFAULT
:默認若是用戶沒有指定持久化等級,HBase使用SYNC_WAL等級持久化數據。
SKIP_WAL
:只寫緩存,不寫HLog日誌。這種方式由於只寫內存(memstore),所以能夠提高寫入性能,可是數據有丟失的風險。
ASYNC_WAL
:異步將數據寫入HLog日誌中。
SYNC_WAL
:同步將數據寫入日誌文件中,有可能只是被寫入文件系統中,並無真正落盤。
FSYNC_WAL
:同步將數據寫入日誌文件並強制落盤。最嚴格的日誌寫入等級,能夠保證數據不會丟失,可是性能相對比較差。
如代碼中所示當前sync_wal和fsync_wal採用的是同一策略都是:調用HFLog的sync()方法。sync()是一個阻塞方法,須要等到數據真正的刷到磁盤後,便會喚醒它,而後工做線程返回寫入memstore,完成一次「寫」操做。
Hbase是一個高可靠性、高性能、面向列、可伸縮的分佈式存儲系統,利用HBase技術可在廉價PC Server上搭建起大規模結構化存儲集羣。本文檔在介紹hbase基本「寫」原理後着重從源碼角度,比較淺顯地分析了一個「寫」操做後在RegionServer的調用過程,爲之後繼續更深刻學習研究hbase「寫」過程梳理了脈絡。