ETL技巧應用(高級應用介紹:準備區運用、 時間戳的運用、日誌表的運用、使用調度)

1.1    準備區運用

a.在構建數據倉庫時,數據源位於一服務器上,數據倉庫在另外一服務器端,數據源Server端訪問頻繁,而且數據量大,須要不斷更新,數據庫

b.創建準備區數據庫:安全

>將數據抽取到準備區中,服務器

>基於準備區中的數據進行處理,日誌

這樣處理的好處是防止了在原OLTP系統中中頻繁訪問,進行數據運算或排序等操做。例如咱們能夠按照天將數據抽取到準備區中,基於數據準備區,咱們將進行數據的轉換,整合,將不一樣數據源的數據進行一致性處理。數據準備區中將存在原始抽取表,一些轉換中間表和臨時表以及ETL日誌表等。排序

1.2    時間戳的運

     不一樣的時間有不一樣的統計數據信息,那麼按照時間記錄的信息將發揮很重要的做用。在ETL中,時間戳有其特殊的 做用,在上面提到的緩慢變化維度中,咱們可使用時間戳標識維度成員;在記錄數據庫和數據倉庫的操做時,咱們也將使用時間戳標識信息,例如在進行數據抽取 時,咱們將按照時間戳對OLTP系統中的數據進行抽取,好比在午夜0:00取前一天的數據,咱們將按照OLTP系統中的時間戳取GETDATE到 GETDATE減一天,這樣獲得前一天數據服務器端

1.3    日誌表的運用

 咱們使用一張或多張Log日誌表,將出錯信息記錄下來,在日誌表中咱們將記錄每次抽取的條數,處理成功的條數,處理失敗的條數,處理失敗的數據,處 理時間等等,這樣當數據發生錯誤時,咱們很容易發現問題所在,而後對出錯的數據進行修正或從新處理。技術

1.4    使用調度

在對數據倉庫進行增量更新時必須使用調度,即對事實數據表進行增量更新處理,在使用調度前要考慮到事實數據量,須要多長時間更 新一次,好比但願按天進行查看,那麼咱們最好按天進行抽取,若是數據量不大,能夠按照月或半年對數據進行更新,若是有緩慢變化維度狀況,調度時須要考慮到 維度表更新狀況,在更新事實數據表以前要先更新維度表。時間戳

調度是數據倉庫的關鍵環節,要考慮縝密,在ETL的流程搭建好後,要按期對其運行,因此調度是執行ETL流程的關鍵步驟,每一次調度除了寫入Log日誌表 的數據處理信息外,還要使用發送Email或報警信息等,這樣也方便的技術人員對ETL流程的把握,加強了安全性和數據處理的準確性統計

相關文章
相關標籤/搜索