1萬屬性，100億數據，每秒10萬吞吐，架構如何設計？

時間 2019-12-05

標籤屬性數據每秒吞吐架構如何設計欄目系統架構简体版

原文原文鏈接

前言

有一類業務場景，沒有固定的schema存儲，卻有着海量的數據行數，架構上如何來實現這類業務的存儲與檢索呢？58最核心的數據「帖子」的架構實現技術細節，今天和你們聊一聊。mysql

1、背景描述及業務介紹

什麼是58最核心的數據？

58是一個信息平臺，有不少垂直品類：招聘、房產、二手物品、二手車、黃頁等等，每一個品類又有不少子品類，無論哪一個品類，最核心的數據都是「帖子信息」。sql

各分類帖子的信息有什麼特色？

逛過58的朋友很容易瞭解到，這裏的帖子信息：數據庫

（1）各品類的屬性千差萬別，招聘帖子和二手帖子屬性徹底不一樣，二手手機和二手家電的屬性又徹底不一樣，目前恐怕有近萬個屬性；json

（2）數據量巨大，100億級別；緩存

（3）每一個屬性上都有查詢需求，各組合屬性上均可能有組合查詢需求，招聘要查職位/經驗/薪酬範圍，二手手機要查顏色/價格/型號，二手要查冰箱/洗衣機/空調；架構

（4）吞吐量很大，每秒幾10萬吞吐；併發

如何解決100億數據量，1萬屬性，多屬性組合查詢，10萬併發查詢的技術難題呢？一步步來。iphone

2、最容易想到的方案

每一個公司的發展都是一個從小到大的過程，撇開併發量和數據量不談，先看看性能

（1）如何實現屬性擴展性需求；ui

（2）多屬性組合查詢需求；

如何知足業務的存儲需求呢？

最開始，業務只有一個招聘品類，那帖子表多是這麼設計的：

tiezi(tid, uid, c1, c2, c3);

那如何知足各屬性之間的組合查詢需求呢？

最容易想到的是經過組合索引知足查詢需求：

index_1(c1, c2)

index_2(c2, c3)

index_3(c1, c3)

隨着業務的發展，又新增了一個房產類別，存儲問題又該如何解決呢？

能夠新增若干屬性知足存儲需求，因而帖子表變成了：

tiezi(tid, uid, c1, c2, c3, c10, c11, c12, c13);

其中：

c1,c2,c3是招聘類別屬性
c10,c11,c12,c13是房產類別屬性

經過擴展屬性，能夠解決存儲的問題。

查詢需求，又該如何知足呢？

首先，跨業務屬性通常沒有組合查詢需求。只能創建了若干組合索引，知足房產類別的查詢需求。

當業務愈來愈多時，是否是發現玩不下去了？

3、垂直拆分是一個思路

新增屬性是一種擴展方式，新增表也是一種方式，垂直拆分也是常見的存儲擴展方案。

如何按照業務進行垂直拆分？

能夠這麼玩：

tiezi_zhaopin(tid, uid, c1, c2, c3);

tiezi_fangchan(tid, uid, c10, c11, c12, c13);

在業務各異，數據量和吞吐量都巨大的狀況下，垂直拆分會遇到什麼問題呢？

這些表，以及對應的服務維護在不一樣的部門，看上去各業務靈活性強，研發閉環，這偏偏是悲劇的開始：

（1）tid如何規範？

（2）屬性如何規範？

（3）按照uid來查詢怎麼辦（查詢本身發佈的全部帖子）？

（4）按照時間來查詢怎麼辦（最新發布的帖子）？

（5）跨品類查詢怎麼辦（例如首頁搜索框）？

（6）技術範圍的擴散，有的用mongo存儲，有的用mysql存儲，有的自研存儲；

（7）重複開發了很多組件；

（8）維護成本太高；

ps：想一想看，電商的商品表，不可能一個類目一個表的。

4、58的玩法：三大中心服務

第一：統一帖子中心服務

平臺型創業型公司，可能有多個品類，各品類有不少異構數據的存儲需求，究竟是分仍是合，無需糾結：基礎數據基礎服務的統一，是一個很好的實踐。

ps：這裏說的是平臺型業務。

如何將不一樣品類，異構的數據統一存儲起來呢？

（1）全品類通用屬性統一存儲；

（2）單品類特有屬性，品類類型與通用屬性json來進行存儲；

更具體的：

tiezi(tid, uid, time, title, cate, subcate, xxid, ext);

（1）一些通用的字段抽取出來單獨存儲；

（2）經過cate, subcate, xxid等來定義ext是何種含義；

（3）經過ext來存儲不一樣業務線的個性化需求

例如：

招聘的帖子，ext爲：

{「job」:」driver」,」salary」:8000,」location」:」bj」}

而二手的帖子，ext爲：

{」type」:」iphone」,」money」:3500}

帖子數據，100億的數據量，分256庫，經過ext存儲異構業務數據，使用mysql存儲，上層架了一個帖子中心服務，使用memcache作緩存，就是這樣一個並不複雜的架構，解決了業務的大問題。這是58最核心的帖子中心服務IMC（Info Management Center）。

ps：該服務的底層存儲在16年全面切換爲了自研存儲引擎，替換了mysql，但架構理念仍未變。

解決了海量異構數據的存儲問題，遇到的新問題是：

（1）每條記錄ext內key都須要重複存儲，佔據了大量的空間，可否壓縮存儲；

（2）cateid已經不足以描述ext內的內容，品類有層級，深度不肯定，ext可否具有自描述性；

（3）隨時能夠增長屬性，保證擴展性；

解決完海量異構數據的存儲問題，接下來，要解決的是類目的擴展性問題。

第二：統一類目屬性服務

每一個業務有多少屬性，這些屬性是什麼含義，值的約束等，耦合到帖子服務裏顯然是不合理的，那怎麼辦呢？

抽象出一個統一的類目、屬性服務，單獨來管理這些信息，而帖子庫ext字段裏json的key，統一由數字來表示，減小存儲空間。

ps：帖子表只存元信息，無論業務含義。

如上圖所示，json裏的key再也不是」salary」」location」」money」這樣的長字符串了，取而代之的是數字1,2,3,4，這些數字是什麼含義，屬於哪一個子分類，值的校驗約束，統一都存儲在類目、屬性服務裏。

ps：類目表存業務信息，以及約束信息，與帖子表解耦。

這個表裏對帖子中心服務裏ext字段裏的數字key進行了解釋：

（1）1表明job，屬於招聘品類下100子品類，其value必須是一個小於32的[a-z]字符；

（2）4表明type，屬於二手品類下200子品類，其value必須是一個short；

這樣就對原來帖子表ext擴展屬性：

{「1」:」driver」,」2」:8000,」3」:」bj」}

{」4」:」iphone」,」5」:3500}

key和value都作了統一約束。

除此以外，若是ext裏某個key的value不是正則校驗的值，而是枚舉值時，須要有一個對值進行限定的枚舉表來進行校驗：

這個枚舉校驗，說明key=4的屬性（對應屬性表裏二手，手機類型字段），其值不僅是要進行「short類型」校驗，而是value必須是固定的枚舉值。

{」4」:」iphone」,」5」:3500}

這個ext就是不合法的，key=4的value=iphone不合法，而應該是枚舉屬性，合法的應該爲：

{」4」:」5」,」5」:3500}

此外，類目屬性服務還能記錄類目之間的層級關係：

（1）一級類目是招聘、房產、二手…

（2）二手下有二級類目二手傢俱、二手手機…

（3）二手手機下有三級類目二手iphone，二手小米，二手三星…

類目服務解釋了帖子數據，描述品類層級關係，保證各種目屬性擴展性，保證各屬性值合理性校驗，就是58另外一個統一的核心服務CMC（Category Management Center）。

ps：類目、屬性服務像不像電商系統裏的SKU擴展服務？* （1）品類層級關係，對應電商裏的類別層級體系；（2）屬性擴展，對應電商裏各種別商品SKU的屬性；（3）枚舉值校驗，對應屬性的枚舉值，例如顏色：紅，黃，藍；

經過品類服務，解決了key壓縮，key描述，key擴展，value校驗，品類層級的問題，還有這樣的一個問題沒有解決：每一個品類下帖子的屬性各不相同，查詢需求各不相同，如何解決100億數據量，1萬屬性的檢索與聯合檢索需求呢？

第三：統一檢索服務

數據量很大的時候，不一樣屬性上的查詢需求，不可能經過組合索引來知足全部查詢需求，「外置索引，統一檢索服務」是一個很經常使用的實踐：

（1）數據庫提供「帖子id」的正排查詢需求；

（2）全部非「帖子id」的個性化檢索需求，統一走外置索引；

元數據與索引數據的操做遵循：

（1）對帖子進行tid正排查詢，直接訪問帖子服務；

（2）對帖子進行修改，帖子服務通知檢索服務，同時對索引進行修改；

（3）對帖子進行復雜查詢，經過檢索服務知足需求；

ps：這個檢索服務，扛起了58同城80%的請求（無論來自PC仍是APP，不論是主頁、城市頁、分類頁、列表頁、詳情頁，最終都會轉化爲一個檢索請求），它就是58另外一個統一的核心服務E-search，這個搜索引擎，是徹底自研的。*

對於這個內核自研服務的搜索引擎架構，簡單說明一下：

爲應對100億級別數據量、幾十萬級別的吞吐量，業務線各類複雜的複雜檢索查詢，擴展性是設計重點：

（1）統一的代理層，做爲入口，其無狀態性可以保證增長機器就能擴充系統性能；

（2）統一的結果聚合層，其無狀態性也可以保證增長機器就能擴充系統性能；

（3）搜索內核檢索層，服務和索引數據部署在同一臺機器上，服務啓動時能夠加載索引數據到內存，請求訪問時從內存中load數據，訪問速度很快：

爲了知足數據容量的擴展性，索引數據進行了水平切分，增長切分份數，就可以無限擴展性能
爲了知足一份數據的性能擴展性，同一份數據進行了冗餘，理論上作到增長機器就無限擴展性能

系統時延，100億級別帖子檢索，包含請求分合，拉鍊求交集，從聚合層都可以作到10ms返回。

ps：入口層是Java研發的，聚合層與檢索層都是C語言研發的。帖子業務，一致性不是主要矛盾，E-search會按期全量重建索引，以保證即便數據不一致，也不會持續很長的時間。

5、總結

文章寫了很長，最後作一個簡單總結，面對100億數據量，1萬列屬性，10萬吞吐量的業務需求，能夠採用了元數據服務、屬性服務、搜索服務來解決：

一個解決存儲問題
一個解決品類解耦問題
一個解決檢索問題

任何複雜問題的解決，都是按部就班的。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。