kylin2.3版本啓用jdbc數據源（能夠直接經過sql生成hive表，省去手動導數據到hive,並建hive表的麻煩）

時間 2019-11-20

標籤 kylin2.3 kylin 版本啓用 jdbc 數據能夠直接經過 sql 生成 hive 省去手動麻煩欄目 Java 简体版

原文原文鏈接

kylin2.3版本啓用jdbc數據源（能夠直接經過sql生成hive表，省去手動導數據到hive,並建hive表的麻煩）git

說明：sql

jdbc數據源，本質上仍是hive數據源。數據庫

因爲數據庫作大表關聯方面性能仍是不行。因此kylin的默認數據源仍然是hive,我以爲是很是合理的。apache

對應jdbc數據源，其實就是一種便利的方式。其基本原理就是經過鏈接數據庫，選取所要用的表（或者sql查詢）。網絡

經過sqoop並行的抽取數據，並按照表名生成對應的hive表。cube的構建就根據生成的hive表進行。oop

每次構建的時候都從新抽取數據，生成hive表，構建完成以後，就把這個hive表刪除掉。性能

至關因而自動作了以前開發須要本身作的數據同步到hdfs、新建hive表、同步hive表到kylin這些繁瑣重複的工做。大數據

缺點：blog

一、基於以上說明，很容易得出其缺點就是這些hive表是瞬時的。每次構建都要現場去抽取全量的數據（從而增大了數據庫的壓力，增長了網絡開銷，而且拖慢了cube總體構建速度）。（這裏能夠經過定製其源碼改爲可配置的增量更新的方式，會更好用；可是要考慮表結構變動，是刪除全表重建，仍是要怎麼處理）開發

二、因爲表是瞬時的，就不能同時把這些表提供給其餘方使用。

三、數據源方式不能共用，就是不能同時使用hive和jdbc數據源。這個對須要大數據平臺處理的數據就不那麼友好了，數據處理完再寫會數據庫會很是慢。

參考其官網說明和git

https://issues.apache.org/jira/browse/KYLIN-3044

設置sqoop導入的默認並行度

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。