摘要: 業務介紹 兌吧集團包含兌吧網絡和推啊網絡,兌吧網絡是一家致力於幫助互聯網企業提高運營效率的用戶運營服務平臺,提供積分商城和媒體運營服務。推啊網絡是一家互動式廣告平臺,通過多年的探索與實踐,獨創了全新的移動廣告模式,實現了廣告主、媒體、用戶多方雙贏。java
兌吧集團包含兌吧網絡和推啊網絡,兌吧網絡是一家致力於幫助互聯網企業提高運營效率的用戶運營服務平臺,提供積分商城和媒體運營服務。推啊網絡是一家互動式廣告平臺,通過多年的探索與實踐,獨創了全新的移動廣告模式,實現了廣告主、媒體、用戶多方雙贏。在推啊的廣告場景中,廣告主可得到更好的投放效果,媒體方能獲得更好的流量變現效率,受衆端具備更好的用戶體驗,目前推啊已經服務超過15000家媒體,阿里雲hbase主要服務於"推啊"的廣告業務。算法
"推啊"的總體業務流程以下圖:服務器
廣告平臺基礎架構完善,能有效支持業務,其中核心數據平臺爲公司全部業務提供強有力的數據支撐。其中整個數據平臺根據處理業務不一樣大體分爲3個模塊:網絡
HBase在推啊主要用於流式數據統計,存儲用戶畫像的相關數據,屬於實時統計模塊中主要存儲。
實時統計時,對用戶的行爲數據根據不一樣維度不一樣指標進行統計,好比會記錄用戶在不一樣廣告上的曝光,點擊,參與等數據,也會記錄用戶的相應屬性,好比用戶對哪類廣告比較感興趣,用戶的年齡,性別,職業,愛好等特徵。這些數據所有存儲在HBase集羣中。架構
最開始咱們是物理機房自建HBase,選擇阿里雲HBase主要出於如下幾個考慮:併發
根據咱們業務的發展,從3個階段闡述下阿里雲hbase的使用狀況以及遇到的問題運維
這個階段咱們的數據中心是搭建在本身的IDC機房裏,使用CDH 的hadoop來搭建的集羣,全部的組件包括hive,JStorm,Druid等都安裝在一個集羣裏,JStorm計算時會使用hadoop自帶的HBase用來計算和統計數據,計算完成後,會將成品數據寫入到阿里雲的HBase上,業務系統會訪問阿里雲的HBase來獲取計算好的數據,這樣作的緣由主要從2個方面考慮:oop
這階段咱們將IDC的hadoop集羣遷移到阿里雲上,新買了阿里雲的HBase集羣用來替換原先CDH中的HBase集羣。IDC機房遷移到阿里雲主要基於如下幾點來考慮:性能
這個階段hbase的配置是8核32G 4節點 200G 4 4 SSD存儲,預估支撐20萬的qps訪問,目前大概存儲了600G數據,集羣的qps在峯值時能達到10萬左右。優化
因爲HBase基於java虛擬機原生機制問題,業務系統在讀取HBase數據時,因爲GC會致使讀取抖動到100-200ms,對於廣告推薦系統來講,一次廣告推薦要求在200ms內完成,這樣的抖動顯然是不能接受的,諮詢過阿里雲HBase同窗後,咱們對系統進行了以下改造:
另外據阿里HBase的同窗介紹,阿里雲近期會推出的HBase 2.0,在架構級別作了優化,會從根本上解決因爲Java GC機制致使的延遲抖動,很是期待。
整體來講,阿里雲HBase是很是優秀的。也感謝阿里雲技術同窗,幫咱們解決了底層系統的運維和性能調優,保證了底層系統的穩定,使咱們能夠更加專一的服務業務,幫助業務發展的更快。