USQL如何幫愛普新媒下降80%成本,提高50%數據分析速度

「使用USQL產品,用戶在原有的數據文件基礎上進行數據建模,便可使用SQL進行業務數據的快速查詢,此種方式對原有數據文件改動較小,用戶不用關注大數據分佈式處理的過程,業務遷移方便。對比咱們現有的大數據處理方案,節省80%的服務器成本,提高50%數據分析速度,同時也縮短了新業務的開發週期,值得推薦。」數據庫

——愛普新媒CTO 牛德恆服務器

USQL是什麼?架構

數據湖分析(USQL)是一種可擴展性強、成本低廉的無服務器SQL分析計算引擎,可輕鬆完成面向海量數據的數據建模工做,SQL便可完成數據查詢和分析,極大下降使用大數據的門檻,且無需數據庫管理員和運維人員,大幅度減小對大數據工程師的依賴。less

USQL在愛普新媒案例中的表現運維

計算成本下降97.5%分佈式

相較於愛普新媒如今每個月花費在數據倉庫UDW(用於臨時存放數據)的數千元,處理一樣的數據,USQL可將成本控制在每個月幾十元,由於USQL按照實際分析數據量計費,每GB數據分析價格極低,且不使用時不計費。工具

任務週期縮短55.6%佈局

愛普新媒現有架構下,處理不固定的數據需求,數據導入與分析平均處理時長爲1.8天,而USQL可省去數據導入的步驟,減小運維工做量,大幅度縮短每次任務完成時間。學習

分析效率提高5倍大數據

愛普新媒全部真實業務SQL均已落地,其中最耗時的SQL分析時間可從600秒降至118秒,總體明顯提升SQL分析效率。

大數據工程師投入降爲0

目前每個月需投入大數據工程師20我的日,使用USQL產品,業務分析師可直接經過SQL在對象存儲UFile中完成數據分析,極大減小對工程師的依賴,有限的人力資源可獲得更好的利用。

關於愛普新媒

成立於2010年,是一家專一於移動互聯網產品研發和新媒體整合營銷的高新技術型公司,旗下擁有100餘款精品軟件,內容涵蓋平常生活、效率工具、文章資訊等多個方面,主營以天氣預報、快遊等綜合自媒體矩陣爲載體的推廣業務和以雲魔方DSP移動互聯網廣告分發平臺爲基礎的廣告投放業務。

面臨的數據挑戰

愛普新媒廣告業務數據規模達到數百TB,日增加量爲1TB左右,業務平常不固定的分析需求多,現有的大數據處理方案下,數據部門每個月需投入大數據工程師20我的日,額外花費數千元維持一個數據倉庫集羣,且平均每次需求處理時長爲1.8天。基於已有架構,數據部門將廣告日誌數據壓縮後存放於對象存儲UFile中,接收到業務分析師不固定的數據需求後,再將用於分析的原始數據,臨時加載到數據倉庫UDW中,完成SQL分析後實施清除操做。

圖:愛普新媒現有架構

業務分析師的抱怨

對於業務分析師而言,數據規模達到數百TB,沒法自主完成分析,必須極大程度依賴大數據工程師;而且每次任務處理週期長,若後續有需求變動或分析結果未達預期,還需從新走一遍處理流程;此外當對分析結果存有疑問時,沒法查看原始數據進行校驗。

數據部門的煩惱

業務每個月的不固定數據分析需求多,又沒法自主完成,須要佔用數據部門有限的技術人力資源;需求變更返工次數多,會致使大量重複性工做;而且隨着數據規模日增加量的不斷提高,用於臨時存放不固定需求數據的GreenPlum成本一直在增長。

產品訴求

基於現狀,愛普新媒的產品需求清晰明確:

支持數百TB規模的數據分析 業務分析師可以獨立完成不固定需求分析工做 具備較強的Ad-Hoc能力 縮短每次需求處理時長 下降計算成本投入和運維投入

選擇USQL產品

帶着上述訴求,愛普新媒留意到UCloud推出的USQL產品,對其無運維、低成本、低門檻的產品理念產生濃厚興趣,立即聯繫UCloud架構師表達試用的意願。

在與其數據部門溝通的過程當中,UCloud架構師發現對方務實且擁有開放的學習態度,對雲計算也一直保持極大的好奇心,接觸瞭解過數據湖以及Serverless的概念,爲雙方的交流奠基了良好的基礎。此外現有架構中計算與存儲是分離的狀態,其原始數據並未與GreenPlum強耦合,這爲更換分析引擎的方案實施提供了便利。

USQL替換GreenPlum

新架構中使用USQL替換原先用於臨時加載數據的GreenPlum,省去數據從UFile導入到GreenPlum的過程,並使得業務分析師可以直接經過SQL分析UFile中海量數據,全程無需大數據工程師的參與。

圖:愛普新媒新架構

此外,數據對接中發現,愛普新媒的數據格式爲JSON並經過GZIP格式壓縮,UCloud瞭解後一週內完成USQL產品升級,得以支持這兩種數據格式,減小對接上的障礙,並協助愛普新媒從新佈局其現有數據,目前愛普新媒實際業務SQL已所有落地,同時完成產品培訓以及現場演示。

圖:實際業務SQL示例

結果顯示分析效率可提升5倍,CTO觀看USQL的實例演示後,當場測算成本,對其在下降成本、提升效率、減小人力方面的表現感到超出預期,已決定將全部離線計算業務都放在USQL上。

若是您也有大數據分析成本的困擾,歡迎加入咱們的數據分析羣共同探討!

相關文章
相關標籤/搜索