1萬屬性,100億數據,每秒10萬吞吐,架構如何設計?

星空.png

前言

有一類業務場景,沒有固定的schema存儲,卻有着海量的數據行數,架構上如何來實現這類業務的存儲與檢索呢?58最核心的數據「帖子」的架構實現技術細節,今天和你們聊一聊。mysql

1、背景描述及業務介紹

什麼是58最核心的數據?

58是一個信息平臺,有不少垂直品類:招聘、房產、二手物品、二手車、黃頁等等,每一個品類又有不少子品類,無論哪一個品類,最核心的數據都是「帖子信息」。sql

各分類帖子的信息有什麼特色?

逛過58的朋友很容易瞭解到,這裏的帖子信息:數據庫

(1)各品類的屬性千差萬別,招聘帖子和二手帖子屬性徹底不一樣,二手手機和二手家電的屬性又徹底不一樣,目前恐怕有近萬個屬性;json

(2)數據量巨大,100億級別;緩存

(3)每一個屬性上都有查詢需求,各組合屬性上均可能有組合查詢需求,招聘要查職位/經驗/薪酬範圍,二手手機要查顏色/價格/型號,二手要查冰箱/洗衣機/空調;架構

(4)吞吐量很大,每秒幾10萬吞吐;併發

如何解決100億數據量,1萬屬性,多屬性組合查詢,10萬併發查詢的技術難題呢?一步步來。iphone

2、最容易想到的方案

每一個公司的發展都是一個從小到大的過程,撇開併發量和數據量不談,先看看性能

(1)如何實現屬性擴展性需求;ui

(2)多屬性組合查詢需求;

如何知足業務的存儲需求呢?

最開始,業務只有一個招聘品類,那帖子表多是這麼設計的:

tiezi(tid, uid, c1, c2, c3);

那如何知足各屬性之間的組合查詢需求呢?

最容易想到的是經過組合索引知足查詢需求:

index_1(c1, c2)

index_2(c2, c3)

index_3(c1, c3)

隨着業務的發展,又新增了一個房產類別,存儲問題又該如何解決呢?

能夠新增若干屬性知足存儲需求,因而帖子表變成了:

tiezi(tid, uid, c1, c2, c3, c10, c11, c12, c13);

其中:

  • c1,c2,c3是招聘類別屬性

  • c10,c11,c12,c13是房產類別屬性

經過擴展屬性,能夠解決存儲的問題。

查詢需求,又該如何知足呢?

首先,跨業務屬性通常沒有組合查詢需求。只能創建了若干組合索引,知足房產類別的查詢需求。

當業務愈來愈多時,是否是發現玩不下去了?

3、垂直拆分是一個思路

新增屬性是一種擴展方式,新增表也是一種方式,垂直拆分也是常見的存儲擴展方案。

如何按照業務進行垂直拆分?

能夠這麼玩:

tiezi_zhaopin(tid, uid, c1, c2, c3);

tiezi_fangchan(tid, uid, c10, c11, c12, c13);

在業務各異,數據量和吞吐量都巨大的狀況下,垂直拆分會遇到什麼問題呢?

這些表,以及對應的服務維護在不一樣的部門,看上去各業務靈活性強,研發閉環,這偏偏是悲劇的開始:

(1)tid如何規範?

(2)屬性如何規範?

(3)按照uid來查詢怎麼辦(查詢本身發佈的全部帖子)?

(4)按照時間來查詢怎麼辦(最新發布的帖子)?

(5)跨品類查詢怎麼辦(例如首頁搜索框)?

(6)技術範圍的擴散,有的用mongo存儲,有的用mysql存儲,有的自研存儲;

(7)重複開發了很多組件;

(8)維護成本太高;

ps:想一想看,電商的商品表,不可能一個類目一個表的。

4、58的玩法:三大中心服務

第一:統一帖子中心服務

平臺型創業型公司,可能有多個品類,各品類有不少異構數據的存儲需求,究竟是分仍是合,無需糾結:基礎數據基礎服務的統一,是一個很好的實踐。

ps:這裏說的是平臺型業務。

如何將不一樣品類,異構的數據統一存儲起來呢?

(1)全品類通用屬性統一存儲;

(2)單品類特有屬性,品類類型與通用屬性json來進行存儲;

更具體的:

tiezi(tid, uid, time, title, cate, subcate, xxid, ext);

(1)一些通用的字段抽取出來單獨存儲;

(2)經過cate, subcate, xxid等來定義ext是何種含義;

(3)經過ext來存儲不一樣業務線的個性化需求

例如:

招聘的帖子,ext爲:

{「job」:」driver」,」salary」:8000,」location」:」bj」}

而二手的帖子,ext爲:

{」type」:」iphone」,」money」:3500}

帖子數據,100億的數據量,分256庫,經過ext存儲異構業務數據,使用mysql存儲,上層架了一個帖子中心服務,使用memcache作緩存,就是這樣一個並不複雜的架構,解決了業務的大問題。這是58最核心的帖子中心服務IMC(Info Management Center)。

ps:該服務的底層存儲在16年全面切換爲了自研存儲引擎,替換了mysql,但架構理念仍未變。

解決了海量異構數據的存儲問題,遇到的新問題是:

(1)每條記錄ext內key都須要重複存儲,佔據了大量的空間,可否壓縮存儲;

(2)cateid已經不足以描述ext內的內容,品類有層級,深度不肯定,ext可否具有自描述性;

(3)隨時能夠增長屬性,保證擴展性;

解決完海量異構數據的存儲問題,接下來,要解決的是類目的擴展性問題。

第二:統一類目屬性服務

每一個業務有多少屬性,這些屬性是什麼含義,值的約束等,耦合到帖子服務裏顯然是不合理的,那怎麼辦呢?

抽象出一個統一的類目、屬性服務,單獨來管理這些信息,而帖子庫ext字段裏json的key,統一由數字來表示,減小存儲空間。

ps:帖子表只存元信息,無論業務含義。

如上圖所示,json裏的key再也不是」salary」 」location」 」money」 這樣的長字符串了,取而代之的是數字1,2,3,4,這些數字是什麼含義,屬於哪一個子分類,值的校驗約束,統一都存儲在類目、屬性服務裏。

ps:類目表存業務信息,以及約束信息,與帖子表解耦。

這個表裏對帖子中心服務裏ext字段裏的數字key進行了解釋:

(1)1表明job,屬於招聘品類下100子品類,其value必須是一個小於32的[a-z]字符;

(2)4表明type,屬於二手品類下200子品類,其value必須是一個short;

這樣就對原來帖子表ext擴展屬性:

{「1」:」driver」,」2」:8000,」3」:」bj」}

{」4」:」iphone」,」5」:3500}

key和value都作了統一約束。

除此以外,若是ext裏某個key的value不是正則校驗的值,而是枚舉值時,須要有一個對值進行限定的枚舉表來進行校驗:

這個枚舉校驗,說明key=4的屬性(對應屬性表裏二手,手機類型字段),其值不僅是要進行「short類型」校驗,而是value必須是固定的枚舉值。

{」4」:」iphone」,」5」:3500}

這個ext就是不合法的,key=4的value=iphone不合法,而應該是枚舉屬性,合法的應該爲:

{」4」:」5」,」5」:3500}

此外,類目屬性服務還能記錄類目之間的層級關係:

(1)一級類目是招聘、房產、二手…

(2)二手下有二級類目二手傢俱、二手手機…

(3)二手手機下有三級類目二手iphone,二手小米,二手三星…

類目服務解釋了帖子數據,描述品類層級關係,保證各種目屬性擴展性,保證各屬性值合理性校驗,就是58另外一個統一的核心服務CMC(Category Management Center)。

ps:類目、屬性服務像不像電商系統裏的SKU擴展服務?* (1)品類層級關係,對應電商裏的類別層級體系; (2)屬性擴展,對應電商裏各種別商品SKU的屬性; (3)枚舉值校驗,對應屬性的枚舉值,例如顏色:紅,黃,藍;

經過品類服務,解決了key壓縮,key描述,key擴展,value校驗,品類層級的問題,還有這樣的一個問題沒有解決:每一個品類下帖子的屬性各不相同,查詢需求各不相同,如何解決100億數據量,1萬屬性的檢索與聯合檢索需求呢?

第三:統一檢索服務

數據量很大的時候,不一樣屬性上的查詢需求,不可能經過組合索引來知足全部查詢需求,「外置索引,統一檢索服務」是一個很經常使用的實踐:

(1)數據庫提供「帖子id」的正排查詢需求;

(2)全部非「帖子id」的個性化檢索需求,統一走外置索引;

元數據與索引數據的操做遵循:

(1)對帖子進行tid正排查詢,直接訪問帖子服務;

(2)對帖子進行修改,帖子服務通知檢索服務,同時對索引進行修改;

(3)對帖子進行復雜查詢,經過檢索服務知足需求;

ps:這個檢索服務,扛起了58同城80%的請求(無論來自PC仍是APP,不論是主頁、城市頁、分類頁、列表頁、詳情頁,最終都會轉化爲一個檢索請求),它就是58另外一個統一的核心服務E-search,這個搜索引擎,是徹底自研的。*

對於這個內核自研服務的搜索引擎架構,簡單說明一下:

爲應對100億級別數據量、幾十萬級別的吞吐量,業務線各類複雜的複雜檢索查詢,擴展性是設計重點:

(1)統一的代理層,做爲入口,其無狀態性可以保證增長機器就能擴充系統性能;

(2)統一的結果聚合層,其無狀態性也可以保證增長機器就能擴充系統性能;

(3)搜索內核檢索層,服務和索引數據部署在同一臺機器上,服務啓動時能夠加載索引數據到內存,請求訪問時從內存中load數據,訪問速度很快:

  • 爲了知足數據容量的擴展性,索引數據進行了水平切分,增長切分份數,就可以無限擴展性能

  • 爲了知足一份數據的性能擴展性,同一份數據進行了冗餘,理論上作到增長機器就無限擴展性能

系統時延,100億級別帖子檢索,包含請求分合,拉鍊求交集,從聚合層都可以作到10ms返回。

ps:入口層是Java研發的,聚合層與檢索層都是C語言研發的。 帖子業務,一致性不是主要矛盾,E-search會按期全量重建索引,以保證即便數據不一致,也不會持續很長的時間。

5、總結

文章寫了很長,最後作一個簡單總結,面對100億數據量,1萬列屬性,10萬吞吐量的業務需求,能夠採用了元數據服務、屬性服務、搜索服務來解決:

  • 一個解決存儲問題

  • 一個解決品類解耦問題

  • 一個解決檢索問題

任何複雜問題的解決,都是按部就班的。

相關文章
相關標籤/搜索