最近在博客園上看到一篇文章,關於數據倉庫建設相關的。之前作項目一直經過PowerQuery進行數據加工處理,再使用PowerBI Desktop進行數據分析展示,沒有單獨構建數據倉庫的概念。經過這個文章找到中軟易通官網,瞭解一些免費的ETL工具介紹和視頻後發現原來經過ETL工具創建數據倉庫確實能夠比較簡單。(注意:這裏的簡單是相對的,主要仍是咱們須要有數據倉庫相關的知識尤爲是數據倉庫維度建模,後期我會專門針對維度建模寫一個維度建模系列的文章。)架構
圖中咱們能夠看到有數據倉庫和沒有數據倉庫的區別。在進行數據分析的時候,咱們總會遇到一些名詞,好比數據倉庫。數據倉庫是數據分析中一個比較重要的東西,數據倉庫是一個面向主題的、集成的、相對穩定的、反應歷史變化的數據集合。下面就給你們解釋一下數據分析中的數據倉庫。工具
對數據分析的理解你們應該都是比較熟悉的,數據分析的流程有不少,首先須要進行對業務的理解,而後就是對數據的理解,挖掘數據,數據處理,數據分析,數據展示,這些步驟就可以給你們帶來一個不錯的數據分析結果。學習
可是數據分析中的工做最重要的就是數據處理工做,因爲數據分析對數據質量、格式的要求比較高,對數據的理解也必須很是深入,使得數據契合業務需求也要必定的過程,根據我作數據分析的經驗,在整個數據分析流程中,用於數據處理的時間每每要佔據70%以上。因此,如何高效、快速地進行數據理解和處理,每每決定了數據分析項目的進度和質量。而數據倉庫具備集成、穩定、高質量等特色,基於數據倉庫爲數據分析提供數據,每每可以更加保證數據質量和數據完整性。spa
咱們若是要作好數據分析的時候,要使用ETL工具構建數據倉庫提高數據分析效果須要從三個方面。分別是數據理解、數據質量、數據跨系統關聯。3d
咱們都知道,數據倉庫是面向主題的,因此其自身與業務結合就相對緊密和完善,更方便數據分析師基於數據理解業務。而數據倉庫是有不少的主題組成,包括了不少的數據。當咱們須要對數據進行分析的時候,若是理解數據倉庫的模型,數據理解也就水到渠成了。視頻
咱們在作數據分析的時候要求數據是乾淨、完整的,而數據倉庫已經對源系統的數據進行了業務契合的轉換,以及髒數據的清洗,這就爲數據分析的數據質量作了較好的保障。blog
數據跨系統關聯數據倉庫的一個簡單架構,各業務源系統的數據通過ETL過程後流入數據倉庫,當不一樣系統數據整合到數據倉庫以後,至少解決了數據分析中的兩個問題:get
第一,跨系統數據收集問題,在金融分析中同一個客戶的儲蓄交易和理財交易咱們在同一張事實表就能夠找到;博客
第二,跨系統關聯問題,進行數據整合時,老是須要找到共同點來關聯來自不一樣系統的信息,而數據倉庫在ETL過程當中就會整合相關客戶信息,完美解決跨系統關聯問題。數據分析
經過上面的內容咱們不難發現數據倉庫確實可以給你們帶來不少的幫助,你們在學習數據分析之餘須要對數據分析中的數據倉庫進行了解,這樣纔可以更好地去進行數據分析工做。但願這篇文章可以給你們帶來幫助,最後感謝你們的閱讀。
歡迎你們一塊兒加入高效數據處理ETL交流羣,一塊兒討論數據分析前ETL過程的問題,一塊兒學習一塊兒成長。
掃碼加羣: