做者介紹: 張俊駿,小紅書數據庫與中間件團隊負責人
小紅書使用 TiDB 歷史能夠追溯到 2017 年甚至更早,那時在物流、倉庫等對新技術比較感興趣的場景下應用,在 2018 年 5 月以後,咱們就開始逐步鋪開,延展到其餘適合 TiDB 的場景中去。截止目前,小紅書使用的 TiDB 節點數在 200+ 個,將來也有更大擴展空間。數據庫
本文根據近兩年 TiDB 在小紅書的落地過程,和你們一塊兒探討一下,小紅書在新數據庫選型的考慮因素、以及 TiDB 從場景分類的角度是如何考量及逐步推廣使用的。具體包括如下內容:安全
<center>圖 1</center>性能優化
如圖 1 所示,小紅書數據服務總體架構最上層是在線應用層(online app),應用層往下確定會依賴一些離線(offline)或者在線(online)的 database(其實它更多的意義應該算存儲,好比 Redis 也被咱們理解爲 database,因此稱之爲「數據服務」可能會更好),這些在線數據服務(online database)會有兩條線:多線程
圖 1 藍框中的部分基本上都由咱們團隊負責。咱們首先須要保證在線數據庫(online database) 的穩定性、安全性以及性能優化等,其次咱們的多種數據庫數據同步服務(database to database replication) 有點像阿里提出的 data replication center 這個概念,這部分也基本上由咱們團隊全權負責。架構
對於一個新的數據庫或數據服務組件選型(如 TiDB),咱們該從哪些方面去入手搞清楚它的特性?下面分享一下咱們的經驗。併發
第一步,咱們須要考察該數據服務/組件的基本功能,首先,咱們要了解它的讀寫場景,包括點查、批量獲取(batch get)、範圍掃描(range scan)、過濾查詢(filter query)、聚合查詢(aggregation)等等。而後咱們看看它是否符合響應時間(latency) 以及帶寬(bandwidth,即能承接多少併發)的要求。最後咱們會關注可擴展性,好比 TiDB 可能最大的特色就是擴展性很是好。這幾點是你們都會想到的最基本的要求,這裏我就一筆略過。app
第二部分是數據同步與處理相關解決方案。這裏咱們有如下 4 點考慮:運維
<center>圖 2</center>工具
部署其實很是重要,它涵蓋如下 5 個方面。oop
運維包括擴容、縮容、遷移,其中遷移可能要考慮跨區遷移、機型升級遷移等。在使用維護某個組件的時候會產出「XX 組件的運維手冊」,這樣下次遇到問題的時候,能夠先去看看運維手冊裏它是不是一個已知問題,有沒有現成的解決方案。在公司人員變更比較頻繁或者業務方直接介入到這個場景的時候,若是沒有運維手冊,有些項目很難落地。
<center>圖 3</center>
優化部分基本上分爲配置調優、客戶端代碼調優、二次開發、三次開發。其中二次開發就是在現有的開源產品上再開發,修復 bug 或者本身實現某些新增功能/工具,將來可能還會貢獻給社區;而三次開發則是本身寫一個和某些組件相似的東西,直接替換掉。在小紅書內部,二次開發是比較主流的,三次開發不多,畢竟從零開始自研一個組件到適應特定業務場景,實際上是跟不上咱們的業務上線節奏的,因此三次開發至少眼下不適合做爲咱們主要的攻堅方向。
將來在小紅書數據服務組件系統,咱們會作不少完善工做,好比安全、審計、服務化、容器化等方面的事情。譬如咱們目前在部署一個組件的時候,容器化尚未在討論範圍以內,也就是須要用容器部署就容器部署,須要在虛擬機上部署就在虛擬機上部署,並無一個明確的結論傾向。固然,我我的認爲將來容器化是一個主流趨勢。
以上就是小紅書的數據服務組件選型的 RoadMap,看起來跟接下來要講的「TiDB 在小紅書多場景下的應用」沒有太大的關係,但我認爲在作應用以前應該先把上面列舉的這些方向思考清楚,這樣會對將來落地工做的投入產出比產生很是大的影響,好比咱們最近按照上面的方向調研 Tidis 和 TiFlash 的時候速度就快不少。
<center>圖 4</center>
TiDB 在小紅書的第一個應用場景是展現類業務,它的 pipeline 如圖 4 中紅色部分所示,線上通常是 MongoDB 或者 MySQL,經過一條實時數據流(realtime dataflow) 鏈接 Redis 或者 TiDB,最後實現 presentation 功能。接下來介紹這類場景下的兩個具體項目。
<center>圖 5</center>
第一個項目是大促實時看板,在去年雙十一期間上線,當時咱們的節奏也比較快,七、8 月開始調研,11 月就上大促業務。
當時該項目下一共有 8 個實時報表,QPS 寫入均值 5K,大促活動開始時 QPS 峯值接近 200K/秒,每過 2s 會有較大的聚合查詢 query,聚合結果還須要寫入 Redis 再 pop 到 TiDB,集羣規模方面只用了 10 個 TiKV 和 3 個 PD。還有一點值得提一下,當時每一個節點掛了 3.5T * 4 塊的 NVME SSD,可是後來事實證實這個選型是有問題的,由於大促的時候咱們人人都在盯着,磁盤壞了會馬上獲得解決,因此即便把四塊盤作了 raid0,而後上線了,根本沒法肯定 NVME 盤出問題的機率是多少,後來差很少每月會出現一兩次相似的故障,故障率很高,雖然我相信將來 NVME 會作得更好,但這樣高的故障率從設計角度來看,這個選型就未必是最合適的。
在實現上,咱們遇到的第一個問題是保證最終一致性的寫入。咱們作了多線程寫入,每一個線程寫入特定的記錄,保證線程之間不會衝突。除此以外,咱們還作了一些調優工做,咱們發現每個事務的 batch insert size 設置爲 100 時能達到吞吐、延遲綜合最優的要求。最初業務側設置的 batch size 很是大,後來發現事務之間衝突的機率、響應的時間等等都會出現一些問題,但 batch size 設置爲 1,那麼併發又會成爲一個問題。因此通過了一段時間的調優,最後獲得了前面的結論。這個參數你們能夠根據需求本身調整,用二分法/摺紙法試驗就能夠獲得。
這個項目最終全程寫入和查詢在大促期間保持穩定,寫入時延小於 20ms,查詢時延小於 1s,由於咱們須要 2s 作一次查詢,這個響應時間是能知足要求的。
<center>圖 6</center>
這個項目背景有兩點:
咱們當前考慮是按業務線去拆分集羣,部分核心表一式多份。好比用戶表可能有多個業務依賴,好比社區業務、訂單物流業務等等,但若是按照業務線拆分集羣以後,就沒法作 Join 了,這也是咱們不能接受的,因此對核心表會以一式多份的形式存在。實際使用場景下,大部分都是點查,好比查特定用戶、特定訂單的線上狀態,同時有少許的單表聚合查詢和跨表 Join 查詢。換句話說,能夠認爲是一個實時的數據倉庫,但又不作複雜 ETL,更多依賴線上真實數據。
咱們的設計方案是把 TiDB 做爲一個 MySQL/MongoDB 的從庫,但對於 MongoDB 來講可能還要作一點同步任務的數據改造工做。如今規模是 10 節點 TiKV + 3 節點 PD 的集羣總共有 3 個,後面可能會按需求擴增。
在實踐細節上,首先咱們會基於 Canal 去作 oplog/binlog 的實時同步。其次,目前咱們對加列以外的 DDL 支持得不夠好,這部分還須要 DBA 手工介入,但在將來會有一些改進。最後是多租戶問題,好比判斷某個部門的同事是否有權限訪問另外一個部門的數據庫,這件事在線上會很是頭疼,如今在接入層解決這個問題,咱們內部有一個叫 venus 的展現平臺,將上層全鏈控制、認證等事情去掉,因此咱們就不用關注這件事了,至少眼下不用關注。這個項目已經開始逐步上線,基本上架構已經肯定。
<center>圖 7</center>
分析類業務的 pipeline 如圖 7 所示,最後的 data warehouse 構建在 AWS 上。
<center>圖 8</center>
這個場景下的第一個項目是作分庫分表的 MySQL ETL。以最大的表爲例,上游 10 節點的MySQL,共計 10000 個分表,存量數據 1000 億條左右,每日增量 10 億+,QPS 寫入均值 3000 條/s,峯值接近 10000 條/s,平臺促銷活動對這部分影響也不大,甚至反而會下降,由於活動主要是電商部門在作,社區的查詢需求反而變少。咱們在 TiDB 離線庫保留了大約 30 天增量監控數據,全量數據存在 S3 上,每日夜間(白天偶爾)會有基於 sqoop 的抽數任務觸發。集羣規模方面,目前使用 10 節點 TiKV + 3 節點 PD。
在實踐細節方面,首先咱們對 MySQL 自增 ID 進行了處理,而後對 sqoop 進行了一些基於 TiDB 的細節上適配,最後調整 TiDB 的 max transaction size 以優化抽取率。除此以外,還有一個值得一提的事情,由於實體數據(用戶/筆記/訂單數據等)不宜硬刪除,可是在 MySQL 關係表作軟刪除是很是可怕的事情,最後可能會由於數據量太過於龐大形成雪崩。但 TiDB 不同,咱們把線上的硬刪除變成了 TiDB 的軟刪除,這對於數倉來講是很是有價值的事情。對於天天全量抽數的表來講,不管軟硬刪除,次日數倉裏的數據老是對的。可是對於大數量的場景,全量抽數代價太高,就會採起增量抽取的方式,即設置一個條件,通常是 update_time 爲今天。這時候硬刪除就存在問題了:上面的 query 條件沒法判斷一條記錄到底是被刪除了,仍是在當天沒有被更新。而前面又提到,關係表上是不適合作軟刪除的。因此咱們在作 ETL 的時候,線上作 delete 的操做,咱們在 TiDB 上會新增一個 is_deleted 字段,並將其設置爲 true。這個時候有一個小細節,刪除這個操做的時間戳怎麼設置。刪除這個操做時的時間戳是跟普通寫入的時間戳不同的。普通的寫入,時間戳就是線上庫的 update time,可是刪除的時候是不會帶上線上的 update_time 的,因此由於這條記錄被硬刪除了,時間戳都找不到了,這時咱們只能用收到這條消息的 update_time 去作它的時間戳,這時就會有些小問題,固然這個問題咱們尚未徹底解決掉,假設你們有相似的需求的話,咱們能夠私下交流討論。目前這個項目已經上線,運行穩定。
<center>圖 9</center>
項目 4 MySQL 歸檔是基於項目 3 的演進。業務背景方面,以最大的表爲例,主要爲物流倉儲部門的訂單及衍生信息,存量很是很是大,每個月進行歸檔到 TiDB 的數據有數十億,但對 QPS 要求不是很高,與業務方討論以後暫定,過去一年半的記錄存放在 TiDB 供業務方查詢,更久遠的記錄歸檔到 S3/Cos 上。
項目 4 與項目 3 代碼相比處理的場景更復雜一些,由於它以前 MySQL 的分庫分表邏輯不像項目 3 那些清晰,集羣規模也會相對大一些,目前是 25 個 TiKV 節點 + 3 個 PD 節點,將來可有擴容的需求。實現細節上,項目 4 和項目 3 相似,這裏就不贅述了。
<center>圖 10</center>
TiDB 接入實時數據寫入服務的業務有如下四個考慮:
如今咱們已經有一部分線上業務從 Hive 離線導入到 TiDB 作 T+1 級別數據服務,並且咱們新上線業務的關係型數據庫選型已經開始傾向於 TiDB,主要是由於它的擴展性爲咱們節省了很大的時間成本,尤爲是業務增加比較快的狀況下,選擇 MySQL 分庫分表實際上是一件代價極其大的事情。
我記得以前有同事問了一個問題,說這個場景用別的東西也能夠作,爲何必定要用 TiDB 呢?爲何要用牛刀來殺一隻雞呢?我回答他:有種狀況是你找不到一隻牛來殺,只能先「殺雞」成功了,將來纔有「殺牛」的機會,可是你們不要認爲「殺雞用牛刀」是一件很蠢事情,這能夠理解爲一個鑑定或者測試的過程。
<center>圖 11</center>
最後分享一下 TiDB 將來在小紅書的接入方向。
本文根據張俊駿老師在 TiDB TechDay 2019 上海站上的演講整理。
更多案例閱讀:https://www.pingcap.com/cases-cn/