10億數據秒級展現,FineBI5.0的大數據支撐有個「幕後BOSS」!

隨着各個業務系統的不斷增長,以及各業務系統數據量不斷激增,業務用戶的分析訴求愈來愈多且變化很快,IT數據支撐方的工做變得愈來愈複雜。前端

一、數據來自多個不一樣的系統,存在須要跨數據源分析,須要對接各類不一樣數據源等問題。算法

二、須要分析的數據體量愈來愈大,而且要快速得到分析結果的問題。數據庫

三、部分數據還須要二次加工處理的問題。緩存

爲了解決日益激增的大數據量分析訴求,大部分公司會經過搭建Hadoop、Spark等大數據架構,配以BI工具作數據層面的分析,來搭建這樣一整套大數據分析平臺。安全

大數據分析很關鍵的一個點在於性能:取數快不快,分析響應快不快,可否實時?服務器

這個問題除了平臺的底層架構,BI的運行性能也有很大相關。多線程

你們可能廣泛認爲的BI,就是一個數據展示工具,在前端看起來沒有太多有技術含量的操做,但背後的邏輯十分複雜,實現難度也很大。就像看獲得的是冰山一角,看不到的是海水下絕大部分的支撐。架構

10億數據秒級展現,FineBI5.0的大數據支撐有個「幕後BOSS」!

好的BI工具都有與之依賴的數據引擎,數據引擎的做用一方面是數據響應的性能(數據量、速率),還有很重要的一點是可否適應企業不一樣業務狀況的模式/方案。好比小數據快速讀取,大數據分佈式並行運算,節點數據實時展示等等.....異步

FineBI V5.0版本就是一個能夠支撐以上需求的工具,背後依賴的是Spider大數據引擎。分佈式

Spider高性能引擎能夠支撐10億量級數據在BI前端快速的拖拽分析和展現,且有高可用架構設計保證數據引擎整年可支撐業務分析。Spider引擎的前世此生

爲何叫Spider引擎呢?聽起來很像爬蟲軟件,和數據分析又有什麼關係呢?

一則是字面翻譯過來的意思——蜘蛛,從蜘蛛就很容易聯想到結網。從結網的角度的看,有兩個含義,一是將以前已有的引擎功能所有聯結在一塊兒,由於5.0引擎實現了實時數據與抽取數據的對接與靈活切換;二是5.0數據引擎比較重要的分佈式模式,這種模式是由各個組件組合起來的架構,結網就是將這些組件聯結起來的意思。

二則是諧音法拉利的一款敞篷跑車。跑車嘛,速度快。這款跑車作了加長與加寬設計,使其更穩定,保持性能且更安全。剛好與咱們的數據引擎理念不謀而合。

所以,就取名Spider引擎。

再來講說它的發展史。

FineBI的數據引擎從起初作數據抽取的cube/FineIndex引擎,發展到後來開發了直連引擎/FineDirect引擎。再到2016年開發,17年到18年迅速擴展到60多家客戶使用的分佈式引擎。引擎功能與支撐數據量都在伴隨着時代的發展不斷進步。然而引擎類別繁多,用戶理解與使用都是問題。

所以,到v5.0版本,將引擎作了大一統,Spider引擎將以前全部引擎功能所有囊括其中,抽取數據與實時數據可互相切換,本地模式可根據數據量狀況擴展爲分佈式模式,使用與理解上都更加簡單了。

10億數據秒級展現,FineBI5.0的大數據支撐有個「幕後BOSS」!

定位和亮點

Spider做爲數據引擎,在FineBI中扮演着支撐數據分析的角色,強大的數據處理與計算能力爲前端的靈活快速應用分析提供強有力的支撐。

10億數據秒級展現,FineBI5.0的大數據支撐有個「幕後BOSS」!

Spider引擎的本地模式,利用本地磁盤存儲,並行數據計算,在小數據量狀況下,展現效果優異,且輕量方便。

在數據量激增以後,可橫向擴展機器節點,利用Spider引擎專爲支撐海量大數據分析而生的分佈式方案。Spider引擎分佈式模式,結合Hadoop大數據處理思路,以最輕量級的架構實現大數據量高性能分析。此分佈式方案集成了Alluxio 、Spark、 HDFS、zookeerer等大數據組件,結合自研高性能算法,列式存儲、並行內存計算、計算本地化加上高性能算法,解決大數據量分析問題以及在FineBI中快速展現的問題。同時從架構上保證了引擎系統整年可正常使用。

Spider引擎的直連模式,能夠直接對接數據庫作實時大數據分析。將用戶在FineBI前端拖拽分析的操做,實時地轉化爲通過處理的查詢語言,實現對企業數據庫的數據進行實時分析的效果。

直連模式的實時數據與本地模式以及分佈式模式下的抽取數據能夠靈活轉換,使得分析更加靈活方便。

引擎亮點:

(1)引擎支撐前端快速地展現分析,真正實現億級數據,秒級展現。

(2)用戶能夠根據數據量、實時性要求、使用頻次等,自由選擇實時或抽取的方式,靈活知足實時數據分析與大數據量歷史數據分析的需求。

(3)抽取數據的高性能增量更新功能,可知足多種數據更新場景,減小數據更新時間,減小數據庫服務器壓力。

(4)合理的引擎系統架構設計可保證整年無端障,整年可正常使用。

在數據源支持上,常規的數據源均可支持,無需擔憂數據源支持問題。

10億數據秒級展現,FineBI5.0的大數據支撐有個「幕後BOSS」!

在抽取數據時候,異步數據抽取保證效率。列式存儲字典壓縮可將數據以多倍壓縮以後存儲過來,不存在數據膨脹的問題,數據量激增以後,硬件成本也不會增長。(以下所示,數據量越大,抽取以後數據壓縮狀況越好)。

10億數據秒級展現,FineBI5.0的大數據支撐有個「幕後BOSS」!

智能位圖索引、分頁引擎,本地模式下的多線程計算,分佈式模式下的內存計算、分佈式計算和數據本地化都帶來秒速數據展現的效果。(上圖是100w大分組的場景,速度是秒;下圖是普通操做場景)。

10億數據秒級展現,FineBI5.0的大數據支撐有個「幕後BOSS」!

10億數據秒級展現,FineBI5.0的大數據支撐有個「幕後BOSS」!

同時,分佈式數據存儲系統的HA,保證數據計算穩定性,使得數據引擎能夠爲業務系統整年提供穩定支撐服務。

使用實時數據的時候,設置參數、智能緩存等都能充分發揮數據庫的性能。帶來最佳性能體驗。

10億數據秒級展現,FineBI5.0的大數據支撐有個「幕後BOSS」!

客戶案例

Spider引擎在FineBI v4.1版本是直連引擎與分佈式引擎的結合,此版本已經從17年投入使用,目前已有60多家客戶在正式投入使用,覆蓋了保險銀行、證券基金、餐飲零售、畜牧、通訊、互聯網、能源化工行業等數十個行業。

相關文章
相關標籤/搜索