我是如何用redis作實時訂閱推送的

      前陣子開發了公司領劵中心的項目,這個項目是以redis做爲關鍵技術落地的。mysql

      先說一下領劵中心的項目吧,這個項目就相似京東app的領劵中心,固然圖是截取京東的,公司的就不截了。。。redis

     

 

      其中有一個功能叫作領劵的訂閱推送。什麼是領劵的訂閱推送?就是用戶訂閱了該劵的推送,在可領取前的一分鐘就要把提醒信息推送到用戶的app中。原本這個訂閱功能應該是消息中心那邊作的,但他們說這個短期內作不了。因此讓我這個負責優惠劵的作了-.-!。具體方案就是到具體的推送時間點了,coupon系統調用消息中心的推送接口,把信息推送出去。算法

 

     下們咱們分析一下這個功能的業務情景。公司目前註冊用戶6000W+,是哪家就不要打聽了。。。好比有一張無門檻的優惠劵下單立減20元,那麼搶這張劵的人就會比較多,咱們保守估計10W+,百萬級別很差說。咱們初定爲20W萬人,那麼這20W條推送信息要在一分鐘推送完成!而且一個用戶是能夠訂閱多張劵的。因此咱們知道了這個訂閱功能的有兩個突出的難點:sql

     一、推送的實效性:推送慢了,用戶會抱怨沒有及時通知他們錯過了開搶時機。數據庫

     二、推送的體量大:爆款的神劵,人人都想搶!服務器

      然而推送體量又會影響到推送的實效性。這真是一個讓人頭疼的問題!架構

 

     那就讓咱們把問題一個個解決掉吧!app

     推送的實效性的問題:當用戶在領劵中心訂閱了某個劵的領取提醒後,在後臺就會生成一條用戶的訂閱提醒記錄,裏面記錄了在哪一個時間點給用戶發送推送信息。因此問題就變成了系統如何快速實時選出哪些要推送的記錄!負載均衡

    方案1:MQ的延遲投遞。MQ雖然支持消息的延遲投遞但尺度太大1s 5s 10s 30s 1m,用來作精確時間點投遞不行!而且用戶執行訂閱以後又取消訂閱的話,要把發出去的MQ消息delete掉這個操做有點頭大,短期內難以落地!而且用戶能夠取消以後再訂閱,這又涉及到去重的問題。因此MQ的方案否掉。異步

   方案2:傳統定時任務。這個相對來講就簡單一點,用定時任務是去db裏面load用戶的訂閱提醒記錄,從中選出當前能夠推送的記錄。但有句話說得好任何脫離實際業務的設計都是耍流氓~。下面咱們就分析一下傳統的定時任務到底適不適合咱們的這個業務!

 

可否支持多機同時跑 通常不能,同一時刻只能單機跑。
存儲數據源 通常是mysql或者其它傳統數據庫,而且是單表存儲
頻率 支持秒、分、時、天,通常不能太快

 

        總上所述咱們就知道了通常傳統的定時任務存在如下缺點:

       一、性能瓶頸。只有一臺機在處理,在大致量數據面前力不從心!

       二、實效性差。定時任務的頻率不能過高,過高會業務數據庫形成很大的壓力!

       三、單點故障。萬一跑的那臺機掛了,那整個業務不可用了-。- 這是一個很可怕的事情!

        因此傳統定時任務也不太適合這個業務。。。 

       那咱們是否是就一籌莫展了呢?其實不是的! 咱們只要對傳統的定時任務作一個簡單的改造!就能夠把它變成能夠同時多機跑,而且實效性能夠精確到秒級,而且拒絕單點故障的定時任務集羣!這其中就要藉助咱們的強大的redis了。

     

方案3:定時任務集羣

     首先咱們要定義定時任務集羣要解決的三個問題!

     一、實效性要高

     二、吞吐量要大

     三、服務要穩定,不能有單點故障 

     下面是整個定時任務集羣的架構圖。 

       

 

     架構很簡單:咱們把用戶的訂閱推送記錄存儲到redis集羣的sortedSet隊列裏面,而且以提醒用戶提醒時間戳做爲score值,而後在咱們個每業務server裏面起一個定時器頻率是秒級,個人設定就是1s,而後通過負載均衡以後從某個隊列裏面獲取要推送的用戶記錄進行推送。下面咱們分析如下這個架構

    一、性能:除去帶寬等其它因素,基本與機器數成線性相關。機器數量越多吞吐量越大,機器數量少時相對的吞吐量就減小。

    二、實效性:提升到了秒級,效果還能夠接受。

    三、單點故障?不存在的!除非redis集羣或者全部server全掛了。。。。

 

    這裏解析一下爲何用redis?

    第一redis 能夠做爲一個高性能的存儲db,性能要比MySQL好不少,而且支持持久化,穩定性好。

    第二redis SortedSet隊列自然支持以時間做爲條件排序,完美知足咱們選出要推送的記錄。

    

    ok~既然方案已經有了那如何在一天時間內把這個方案落地呢?是的我設計出這個方案到基本編碼完成,時間就是一天。。。 由於時間太趕鳥。

     首先咱們以user_id做爲key,而後mod隊列數hash到redis SortedSet隊列裏面。爲何要這樣呢,由於若是用戶同時訂閱了兩張劵而且推送時間很近,這樣的兩條推送就能夠合併成一條~,而且這樣hash也相對均勻。下面是部分代碼的截圖:

  

    而後要決定隊列的數量,通常正常來講咱們有多少臺處理的服務器就定義多少條隊列。由於隊列太少,會形成隊列競爭,太多可能會致使記錄得不到及時處理。

    然而最佳實踐是隊列數量應該是可動態配置化的,由於線上的集羣機器數是會常常變的。大促的時候咱們會加機器是否是,而且業務量增加了,機器數也是會增長是否是~。因此我是借用了淘寶的diamond進行隊列數的動態配置。

 

    咱們每次從隊列裏面取多少條記錄也是能夠動態配置的 

   這樣就能夠隨時根據實際的生產狀況調整整個集羣的吞吐量~。  因此咱們的定時任務集羣仍是具備一個特性就是支持動態調整~。

   最後一個關鍵組件就是負載均衡了。這個是很是重要的!由於這個作得很差就會可能致使多臺機競爭同時處理一個隊列,影響整個集羣的效率!在時間很緊的狀況下我就用了一個簡單實用的利用redis一個自增key 而後 mod 隊列數量算法。這樣就很大程度上就保證不會有兩臺機器同時去競爭一條隊列~.

 

    最後咱們算一下整個集羣的吞吐量

     10(機器數) * 2000(一次拉取數) = 20000。而後以MQ的形式把消息推送到消息中心,發MQ是異步的,算上其它處理0.5s。

     其實發送20W的推送也就是10幾s的事情。

    ok~ 到這裏咱們整個定時任務集羣就差很少基本落地好了。若是你問我後面還有什麼能夠完善的話那就是:

    一、加監控, 集羣怎麼能夠木有監控呢,萬一出問題有任務堆積怎麼辦~

    二、加上可視化界面。

    三、最好有智能調度,增長任務優先級。優先級高的任務先運行嘛。

    四、資源調度,萬一機器數量不夠,力不從心,優先保證重要任務執行。

 

     目前項目已上前線,運行平穩~。

相關文章
相關標籤/搜索