kettle —— 從 oracle 到 oracle的坑

時間 2019-12-13

標籤 kettle oracle 欄目 Oracle 简体版

原文原文鏈接

　　公司有個項目，是使用kettle從oracle上統計，再將結果跟oracle中目標表進行對比更新。接手後，走了一些彎路，中間各類嘗試都不盡如人意，也學了kettle的一些組件的用法。正好趁着機會記錄一下。mysql

　　1、背景：sql

　　需求其實很簡單，在源oracle中，有大批量的表，是使用定時調度從其餘不一樣的數據庫(oracle,mysql,sybase,dameng,sqlserver)中將「表信息」，「字段信息」，「註釋信息」等元數據表，拉取過來，分別作好編號存儲。數據庫

　　而kettle要實現的功能：oracle

　　① 則是從這些源數據表中，將表名、字段名、字段註釋、字段長度、字段類型等信息關聯出來。sqlserver

　　② 並與以前已經作好的一張結果表作關聯更新。優化

　　③ 將「元數據有變動」的表的四元素(type，length，primary，comment)信息進行update。spa

　　④ 若是該字段已經沒有了被刪除了，則有專用字段標記爲"1"。server

　　⑤ 若是是新來的字段，則insert插入目標表。blog

　　2、歷程：索引

　　1. 一開始，機敏的同事使用了一個SQL腳本，用了oracle中的 merge using() matched ....用法，——若是查詢結果與目標結果的 table_name和 column_name關聯上，則直接將四元素update到目標表中；若沒關聯上，則直接insert到目標表中。

　　2. 問題初現：初步的邏輯至關於：只要關聯上，就必須update，這樣來講，沒有任何變化的字段，也要update一次，形成大量的update實際上是能夠避免的。並且已刪除字段的標記也未實現。

　　3. 趟雷：

　　　　① 最開始，使用kettle的組件來實現SQL中的邏輯，就不貼圖了，太長了，並且運行起來的效率低的可怕，後被pass。

　　　　② 後來嘗試，將SQL優化：

　　　　　　創建臨時表；

　　　　　　join的數據的列裁剪；

　　　　　　都用了一遍，可是毫無卵用....效率仍然低（在真實生產環境上直接都跑不動了）

　　　　③ 後來嘗試了一個新的用法： kettle中有個組件叫「合併記錄」：。這個小老弟看着不起眼，其實很厲害——它能夠將兩組數據流進行比對，一個原始的，一個「新來的」，用新來的流與原始的流作比對，並在新產生的流中作標記，標記出哪些是沒變的，哪些是新加的（new），哪些是刪除了的（deleted），哪些是改變了的（changed）。