爲何須要跨庫整合能力數據庫
Smartbi支持多種數據源輕鬆接入,基本涵蓋了市面上全部主流的數據庫。無能否認多元的數據鏈接能力使Smartbi能快速鏈接現有數據源,構建統一的數據分析平臺。但在項目實施過程當中,每每會遇到如下的問題:緩存
咱們企業數據存儲在不一樣甚至不一樣類型的數據庫裏面,當用戶查詢數據的範圍比較廣,並不限於一個數據庫時,須要跨多個數據庫進行關聯查詢分析,若是按照傳統的方式:先抽取到要經過ETL把數據都抽取到統一的庫中,就會十分費力。或是對現有業務代碼進行重構,分別從兩個數據庫查詢數據,而後在業務代碼中進行join關聯。數據庫多是分佈在不一樣實例和不一樣的主機上,join關聯將變得很是麻煩。ide
針對這種問題,smartbi提供跨庫聯合數據源(smartbiUnionDB):是系統內置數據源,用於實現跨庫查詢的須要。應對不一樣接口數據統一訪問問題,無需再進行數據抽取。好比將Oracle和SQLServer兩種數據源關聯,讓不一樣接口數據統一訪問,無需再進行數據抽取。工具
跨庫整合的功能oop
跨庫聯合數據源(smartbiUnionDB):是系統內置數據源,用於實現跨庫查詢的須要。系統自動將新建的關係數據源信息添加到該跨庫聯合數據源中,或經過數據庫關聯界面將須要的數據源手動添加,進行跨庫查詢時使用。性能
目前支持作跨庫的數據源類型包括:高速緩存庫、Hadoop_Hive、星環、Vertica、CH、Greenplum、Infobright、Oracle、DB2 V九、MySQL、MS SQL Server、Spark SQL、Teradata_v十二、Informix、IMPALA、PostgreSQL。大數據
跨庫整合的亮點3d
Smartbi提供直接的跨庫查詢,而且內置了數據跨庫查詢引擎,在內存中進行關聯,數據無需落地。省去了中間抽取環節,保證查詢數據的實時性。orm
系統內置跨庫引擎,不需額外安裝部署。blog
對於海量大數據跨庫查詢,內置的跨庫引擎能經過線性擴充,並行處理的方案,知足企業成長鬚要。
跨庫數據源支持應用在數據集定義中,一般在可視化數據集和自助數據集中應用比較普遍。咱們常規的這個數據分析底層結構是基於數據源直接連咱們的數據鏈接進行數據的分析展示,那這種狀況若是咱們的數據量比較少的狀況下通常是沒有什麼問題,可是咱們的數據一旦達到某個級別以後咱們的報表性能就會出現很大的一個瓶頸,甚至說致使咱們的這個報表長時間刷不出來,以致於咱們的系統崩潰,那這個時候就能夠直接使用高速緩存庫機制,以保證系統具備較長的生命力和擴展能力最重要保障。
將數據抽取到高速緩存庫後,以後的查詢直接從高速緩存庫取數,來提升查詢性能。如在體驗中心的「體驗式場景5」在分析某公司的emplyees數據狀況時,其中的僱員表(300,024條記錄)與薪資表(2,844,047條記錄)進行跨庫關聯,使用前高速緩存以前刷新數據至少要20秒;當數據抽取到高速緩存庫後,切換年份刷新僅需2秒,甚至更快。