h說到「大數據」,當下這個詞很火,各行各業涉及到數據的,目前都在提大數據,提數據倉庫,數據挖掘或者機器學習,但同時另一個熱門的名詞也很火,那就是「雲」。愈來愈多的企業都在搭建屬於本身的雲平臺,也有一些會選擇使用技術比較成熟的雲商業化產品服務,好比阿里雲的分析型數據庫產品。本文將結合咱們本身企業內部正在使用的阿里雲產品分析型數據庫PostgreSQL(下文都將稱爲AnalyticDB PostgreSQL版)來淺談一下雲業務場景下的數據實踐。數據庫
悠星網絡科技有限公司成立於2014年,是一家以網絡遊戲爲發展起點,集技術開發、內容研發、全球發行、產業投資、及IP管理爲一體的互聯網公司。做爲目前國內頂尖的二次元研發、發行及投資商,悠星已經在日本及歐美成功發行了《碧藍航線》,研發了包括《諾諾來自異世界》在內的高質量二次元產品,而且投資了行業頂尖研發商 - 上海鷹角網絡科技有限公司(表明做《明日方舟》),即將在明年在日韓歐美髮布《明日方舟》。將來悠星將繼續深刻挖掘二次元市場領域,立志與全世界玩家分享最優秀的二次元產品。網絡
悠星發行遊戲的總註冊用戶超過1000萬人,業務數據表超過450張,總數據量超過170億條,總數據量超7TB。做爲以精準投放,精細化運營爲主要優點的海外遊戲發行公司,如何使用寶貴的遊戲玩家行爲數據成爲了投放與發行部門的重中之重。
挑戰1:海量數據的存儲
在如此海量的數據面前,使用傳統的關係型數據庫已經捉襟見肘,是選擇自建數據庫集羣仍是選擇阿里雲的成熟產品,已經到了必須作出權衡的時候。
挑戰2:海量數據計算的時效性
在海量數據存儲的解決的前提下,如何將海量數據盤活,很好的爲各個業務部門服務又成爲了問題。因爲悠星遊戲發行主要聚焦於海外,因爲時區的限制,從遊戲數據完成採集到業務須要查看數據的時間點,只有2-3小時的時間,如何在有限的時間內,完成數據計算以報表的形式展示給業務部門天然又是一個難點。架構
阿里雲AnalyticDB PostgreSQL版基於開源項目Greenplum構建,由阿里雲深度擴展,兼容ANSI SQL 2003,兼容PostgreSQL/Oracle數據庫生態,支持行存儲和列存儲模式。既提供高性能離線數據處理,也支持高併發在線分析查詢,是各行業有競爭力的PB級實時數據倉庫方案。併發
阿里雲的如下特性吸引了咱們使用使用:機器學習
1.架構V1.0:拖拉機函數
最初的架構因爲需求緊急,只作了最簡單的架構,我爲何稱之爲拖拉機,由於數據處理過程只有AnalyticDB 數據入庫之後,Tableau從AnalyticDB把數據拖拉過來一個過程,並且因爲數據量龐大,拉取全表數據時間較長,Tableau的計算能力也有限,整個報表刷新時間很是長,基本上在小時級別。高併發
2.架構V2.0:廂式貨車性能
因爲數據量的不斷增長,1.0的拖拉機已經徹底沒法知足咱們複雜的報表需求,因而咱們增長了Azkaban,利用Azkaban調度ETL腳本天天定時預處理從遊戲中獲取的數據,可是Tableau仍是全量拉取表中數據,對於數據刷新時間的提升並不大。因此我稱他爲廂式貨車,裝了滿滿的數據,可是速度並不快。學習
3.架構V3.0:和諧號大數據
當友商也開始使用咱們的系統之後,數據量開始爆炸性增加,廂式貨車再也拉不動貨了。因而咱們又進入了現有的架構V3.0:和諧號。咱們在研究後發現先前並無太多的使用AnalyticDB PostgreSQL版的計算性能,因而咱們決定整理全部的報表需求,利用AnalyticDB的強大計算性能,預先將結果集從源庫中計算完,並新建落地庫落地,Tableau只需拉取結果集就能夠完成數據刷新。這樣咱們的查詢的速度獲得了大大的提升,就像和諧號同樣,只帶着咱們須要的數據快速的趕來。
阿里雲的AnalyticDB團隊在咱們使用期間高效的保障了咱們的BI系統,藉助於AnalyticDB的強大性能,在現有的海量數據面前咱們的數據團隊也無所畏懼,能夠輕鬆的存儲並計算出咱們須要的數據。
將來,悠星網絡會放眼於大數據分析與與深度學習等技術領域,一樣須要強大的數據庫支持,但願咱們與阿里雲能共同成長,共同進步。
本文爲雲棲社區原創內容,未經容許不得轉載。