每日生產萬億消息數據入庫,騰訊如何突破大數據分析架構瓶頸

作者 | 彭淵 編輯 | 小智 背景介紹 對於騰訊龐大的大數據分析業務,幾千臺的 Hadoop 集羣近百 P 級的存儲總量,每日產生萬億的消息數據入庫,需要針對幾十億 imei 手機設備去重,並關聯數千億的歷史全表,進行曝光、點擊、PV、UV、日活、新增、留存等統計指標分析,當前所有業務的 ETL 清洗、統計計算、用戶畫像都全部依賴離線 m/r 和 Hive SQL,給集羣造成很大壓力,系統負載高
相關文章
相關標籤/搜索