kylin2.3版本啓用jdbc數據源(能夠直接經過sql生成hive表,省去手動導數據到hive,並建hive表的麻煩)

kylin2.3版本啓用jdbc數據源(能夠直接經過sql生成hive表,省去手動導數據到hive,並建hive表的麻煩)git

 

說明:sql

jdbc數據源,本質上仍是hive數據源。數據庫

因爲數據庫作大表關聯方面性能仍是不行。因此kylin的默認數據源仍然是hive,我以爲是很是合理的。apache

對應jdbc數據源,其實就是一種便利的方式。其基本原理就是經過鏈接數據庫,選取所要用的表(或者sql查詢)。網絡

經過sqoop並行的抽取數據,並按照表名生成對應的hive表。cube的構建就根據生成的hive表進行。oop

每次構建的時候都從新抽取數據,生成hive表,構建完成以後,就把這個hive表刪除掉。性能

至關因而自動作了以前開發須要 本身作的數據同步到hdfs、新建hive表、同步hive表到kylin這些繁瑣重複的工做。大數據

 

缺點:blog

一、基於以上說明,很容易得出其缺點就是這些hive表是瞬時的。每次構建都要現場去抽取全量的數據(從而增大了數據庫的壓力,增長了網絡開銷,而且拖慢了cube總體構建速度)。(這裏能夠經過定製其源碼改爲可配置的增量更新的方式,會更好用;可是要考慮表結構變動,是刪除全表重建,仍是要怎麼處理)開發

二、因爲表是瞬時的,就不能同時把這些表提供給其餘方使用。

三、數據源方式不能共用,就是不能同時使用hive和jdbc數據源。這個對須要大數據平臺處理的數據就不那麼友好了,數據處理完再寫會數據庫會很是慢。

 

 

參考其官網說明和git

https://issues.apache.org/jira/browse/KYLIN-3044

 

 

 設置sqoop導入的默認並行度

相關文章
相關標籤/搜索