數據倉庫的目的是構建面向分析的集成化數據環境,爲企業提供決策支持(Decision Support)。數據倉庫自己並不「生產」任何數據,同時自身也不須要「消費」任何的數據,數據來源於外部,而且開放給外部應用,這也是爲何叫「倉庫」,而不叫「工廠」的緣由。數據庫
01 數據倉庫的特色編程
面向主題的,按照必定的主題進行組織,主題是指用戶使用數據倉庫進行決策時所關心的重點方面,後面會重點舉例說明。
數據倉庫是集成的,數據倉庫的數據有來自於分散的操做型數據,將所需數據從原來的數據中抽取出來,進行加工和集成以後,進入數據倉庫。
數據倉庫是不可更新的,數據倉庫主要是爲決策分析供數據,所涉及的操做主要是數據的查詢;
02 數據倉庫有以下要求架構
效率足夠高:數據倉庫的分析數據通常分爲日、周、月、季、年等,能夠看出,日爲週期的數據要求的效率最高。
數據質量:因爲數據倉庫流程一般分爲多個步驟,包括數據清洗,轉換,裝載等,那麼因爲髒數據會致使數據失真,就可能致使作出錯誤的決策。
可擴展性:主要體如今數據建模的合理性。
數據倉庫的基本架構主要包含的是數據流入流出的過程,能夠分爲三層——數據獲取、數據倉庫、數據應用:ide
數據分析必不可少之數據倉庫!
數據倉庫的結構
數據倉庫從各數據源獲取數據及在數據倉庫內的數據轉換和流動均可以認爲是ETL(抽取Extra, 轉化Transfer, 裝載Load)的過程。ETL是數據倉庫的流水線,也能夠認爲是數據倉庫的血液,它維繫着數據倉庫中數據的新陳代謝,而數據倉庫平常的管理和維護工做的大部分精力就是保持ETL的正常和穩定。工具
03 數據倉庫性能
1.數據獲取學習
對於網站數據倉庫而言,點擊流日誌是一塊主要的數據來源,它是網站分析的基礎數據;固然網站的數據庫數據也並不可少,其記錄這網站運營的數據及各類用戶操做的結果,其餘是網站內外部可能其它各種對於公司決策有用的數據。大數據
2.數據倉庫網站
2.1數據模型:人工智能
數據模型是抽象描述現實世界的一種工具和方法,是經過抽象的實體及實體之間聯繫的形式,來表示現實世界中事務的相互關係的一種映射。在這裏,數據模型表現的抽象的是實體和實體之間的關係,經過對實體和實體之間關係的定義和描述,來表達實際的業務中具體的業務關係。
數據倉庫模型是數據模型中針對特定的數據倉庫應用系統的一種特定的數據模型
數據分析必不可少之數據倉庫!
數據模型的層次劃分
經過上圖,咱們可以很容易的看出在整個數據倉庫的建模過程當中,咱們須要經歷通常四個過程:
業務建模:生成業務模型,主要解決業務層面的分解和程序化。
領域建模:生成領域模型,主要是對業務模型進行抽象處理,生成領域概念模型。
邏輯建模:生成邏輯模型,主要是將領域模型的概念實體以及實體之間的關係進行數據庫層次的邏輯化。
物理建模:生成物理模型,主要解決,邏輯模型針對不一樣關係型數據庫的物理化以及性能等一些具體的技術問題。
所以,在整個數據倉庫的模型的設計和架構中,既涉及到業務知識,也涉及到了具體的技術,咱們既須要瞭解豐富的行業經驗,同時,也須要必定的信息技術來幫助咱們實現咱們的數據模型,最重要的是,咱們還須要一個很是適用的方法論,來指導咱們本身針對咱們的業務進行抽象,處理,生成各個階段的模型。
2.2數據主題:
數據分析必不可少之數據倉庫!
數據主題
數據模型的建設,維度的選擇,是爲了知足數據主題的需求。數據主題一般就是業務需求的提煉。
2.3數據報表:
報表幾乎是每一個數據倉庫的必不可少的一類數據應用,將聚合數據和多維分析數據展現到報表,提供了最爲簡單和直觀的數據。若是你想學好大數據,推薦一個大數據學習扣扣羣606859705天天晚上20:10都有一節免費的大數據直播課程,業餘時間能夠來聽聽,專一大數據分析方法,大數據編程,大數據倉庫,大數據案例,人工智能,數據挖掘都是純乾貨分享
這裏的數據彙總指的是基於特定需求的簡單彙總(基於多維數據的聚合體如今多維數據模型中),簡單彙總能夠是網站的總Pageviews、Visits、Unique Visitors等彙總數據,也能夠是Avg. time on page、Avg. time on site等平均數據,這些數據能夠直接地展現於報表上。
數據分析必不可少之數據倉庫!
數據報表示例
2.4數據集市和開放API
數據集市(Data Mart) ,也叫數據市場,能夠理解爲字段很是多的寬表,好比銷售表,除了包含訂單和金額等必需的字段,還包含可能使用的產品信息集合、用戶信息集合、甚至銷售人員的信息,是數據倉庫的核心組成部分。
提高數據準確性:由於創建面向主題的數據表以後,不用再根據需求的不一樣,創建不一樣的結果表,天然發生錯誤的概率會大大下降
提高效率:因爲是面向主題的,因此須要的任何數據均可以從數據集市表直接簡單獲取。
開放API,指對外開放的查詢等接口。
數據質量中心:
元數據管理
元數據(Meta Date),其實應該叫作解釋性數據,或者數據字典,即數據的數據。主要記錄數據倉庫中模型的定義、各層級間的映射關係、監控數據倉庫的數據狀態及ETL的任務運行狀態。通常會經過元數據資料庫(Metadata Repository)來統一地存儲和管理元數據,其主要目的是使數據倉庫的設計、部署、操做和管理能達成協同和一致。
【免責聲明】本站內容轉載自互聯網,其相關言論僅表明做者我的觀點絕非權威,不表明本站立場。如您發現內容存在版權問題請私信刪除