一,數據倉庫,BI涉及到的相關概念
1.DW:
即數據倉庫(Data Warehouse),是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化的(Time Variant)數據集合,用於支持管理決策。
數據倉庫系統是一個信息提供平臺,他從業務處理系統得到數據,主要以星型模型(能夠作鑽取用,常常用到)和雪花模型進行數據組織,併爲用戶提供各類手段從數據中獲取信息和知識。 2.DSS:
決策支持系統(decision support system ,簡稱dss)是輔助決策者經過數據、模型和知識,以人機交互方式進行半結構化或非結構化決策的計算機應用系統。它是管理信息系統(mis)向更高一級發展而產生的先進信息管理系統。它爲決策者提供分析問題、創建模型、模擬決策過程和方案的環境,調用各類信息資源和分析工具,幫助決策者提升決策水平和質量。 3. 數據字典(Data dictionary):
是一種用戶能夠訪問的記錄數據庫和應用程序源數據的目錄。數據字典是數據庫的重要組成部分。它存放着數據庫全部的相關信息,對用戶來講可能只是一組只讀的表。可是對於咱們來講,數據字典越完善,越詳細就越有助於咱們流程開發的進行,深刻的業務挖掘。 數據字典內容包括:
(1)數據庫中全部模式對象的信息,如表,試圖,索引及各表關聯關係 (2)分配多少空間,當前使用了多少空間等。 (3)列的缺省值
(4)約束信息的完整性
(5)用戶的名字,用戶及角色被授予的權限。用戶訪問或使用的審計信息 (6)其餘產生的數據庫信息
4.元數據:
元數據(Meta Data)是關於數據倉庫的數據,指在數據倉庫建設過程當中所產生的有關數據源定義,目標定義,轉換規則等相關的關鍵數據。同時元數據還包含關於數據含義的商業信息,全部這些信息都應當妥善保存,並很好地管理。爲數據倉庫的發展和使用提供方便。
元數據是一種二進制信息,用以對存儲在公共語言運行庫可移植可執行文件 (PE) 文件或存儲在內存中的程序進行描述。將您的代碼編譯爲 PE 文件時,便會將元數據插入到該文件的一部分中,而將代碼轉換爲 Microsoft 中間語言 (MSIL) 並將其插入到該文件的另外一部分中。在模塊或程序集中定義和引用的每一個類型和成員都將在元數據中進行說明。當執行代碼時,運行庫將元數據加載到內存中,並引用它來發現有關代碼的類、成員、繼承等信息。
5.OLAP:
當今的數據處理大體能夠分紅兩大類:聯機事務處理OLTP(on-line transaction processing)、聯機分析處理OLAP(On-Line Analytical Processing)。OLTP是傳統的關係型數據庫的主要應用,主要是基本的、平常的事務處理,例如銀行交易。OLAP是數據倉庫系統的主要應用,支持複雜的分析操做,側重決策支持,而且提供直觀易懂的查詢結果。web
OLAP委員會對聯機分析處理的定義爲:使分析人員、管理人員或執行人員可以從多種角度對從原始數據中轉化出來的、可以真正爲用戶所理解的、並真實反映企 業維特性的信息進行快速、一致、交互地存取,從而得到對數據的更深刻了解的一類軟件技術。OLAP的目標是知足決策支持或多維環境特定的查詢和報表需求, 它的技術核心是「維」這個概念,所以OLAP也能夠說是多維數據分析工具的集合。 6.EPM(企業績效管理):
基於CKM體系,聯結戰略與執行力的橋樑,核心致力於企業績效,軟件與諮詢的結合.
從KPI出發,以人和職能爲中心,視計劃和任務爲工做單元,經過管理調度實現有效執(跟蹤、分析、反饋、溝通和調整),將及時的業績獎罰做爲槓桿,最後,以管理運行軟件固化系統。
KPI(Key performance indicator)意爲關鍵業績指標,是企業將戰略規劃中的目標通過層層分解,最後落實到以部門和我的具體行爲爲主體的戰術目標的一種企業績效管理方式。 7.ROLAP:
關係型聯機分析處理(ROLAP)是聯機分析處理(OLAP)的一種形式,它對存儲在關係數據庫(而非多維數據庫)中的數據做動態多維分析。
由於ROLAP使用的是關係數據庫,因此它須要更多的處理時間和/或磁盤空間來執行一些專爲多維數據庫設計的任務。儘管如此,ROLAP支持更大的用戶羣組和數據量,經常用於對這些容量要求很高的場合,例如某公司一個大而複雜的部門。
8.維度:Dimension,簡單理解爲分析數據的角度,一般是數據表中的一些字符型字段名稱. 指標:Fact 9.ETL:
ETL,Extraction-Transformation-Loading的縮寫,中文名稱爲數據抽取、轉換和加載。 ETL工具備OWB(Oracle Warehouse Builder)、ODI(Oracle Data Integrator)、Informatic PowerCenter、AICloudETL、DataStage、Repository Explorer、Beeload、Kettle、DataSpider。
10.即席查詢(Ad Hoc)是用戶根據本身的需求,靈活的選擇查詢條件,系統可以根據用戶的選擇生成相應的統計報表。即席查詢與普通應用查詢最大的不一樣是普通的應用查詢是定製開發的,而即席查詢是由用戶自定義查詢條件的。 11. PowerDesigner:
是Sybase公司的CASE工具集,使用它能夠方便地對管理信息系統進行分析設計,它幾乎包括了數據庫模型設計的全過程。利用PowerDesigner能夠製做數據流程圖、概念數據模型、物理數據模型,能夠生成多種客戶端開發工具的應用程序,還可爲數據倉庫製做結構模型,也能對團隊設備模型進行控制。 12. 鑽取:
鑽取是改變維的層次,變換分析的粒度。它包括向上鑽取和向下鑽取。經過嚮導的方式,用戶能夠定義分析因素的彙總行,例如對於各地區各年度的銷售狀況,能夠生成地區與年度的合計行,也能夠生成地區或者年度的合計行。它包括向上鑽取和向下鑽取。也能夠說是從大範圍到小範圍或者小範圍到大範圍。
二, BIEE開發流程
BIEE開發的大致流程:需求調研與確認----搭建數據倉庫模型----ETL開發----BIEE後臺RPD模型創建----前臺報表實現----數據驗證----試運行
1, 需求調研與確認數據庫
此步驟需與客戶充分的溝通,熟悉全部報表及業務數據結構和功能,最好作到每一個細節都能獲得客戶的確認以此來知足客戶的需求,更好地積累並完善數據字典,對客戶所需求的主題和比較關注的維度和度量有個概念,爲此後的流程作好充足的準備。
再結合數據庫字典,根據用戶需求和調研結果,確認主題,分出類別,明確維度和度量。分析數據庫數據,與客戶技術人員確認維度和度量所需數據庫字段在是否存在。經過字段用SQL能夠查詢它們的關聯關係(確認哪些表示主表,再經過主表能夠確認哪些表是副表),最終整理出咱們本身的數據字典,便於日後本身編寫SQL視圖,爲抽取數據作準備.
2, 搭建數據倉庫模型*
通常從臨時表中抽出,此時的臨時表是數據倉庫中的數據關係表,主要以星型模型,雪花模型兩種形式呈現,雪花模型不能作鑽取,因此通常採用星型模型。
3, ETL開發
ETL抽取數據主要採用的Informatica ETL工具
1,抽取臨時表FS_XX, 從業務系統往臨時表裏抽數據,而後進行數據清洗 2,抽取維表D_XX(Dimension table),此時會涉及到緩慢變化維,當新數據往歷史數據裏插入時,就會在原有的序列ID上自增加插入數據,這樣優勢在於不會打亂各個表和數據間的關係。
3,抽取正式表F_XX(Fact table)利用臨時表做爲驅動表和維度表進行匹配,此時會有屢次匹配,匹配後還會進行部分業務處理,最終呈現出事實表,此時不存在臨時表,只有事實表和緯度表及其它們的關係。
4, BIEE後臺RPD模型創建
RPD 模型創建包括:創建物理模型、業務邏輯模型和展示模型。在物理層建立主外鍵,用一對多的關係來顯示數據的完整性。鑽探維度,初始化塊的創建,能夠根據不一樣維度的鑽取來調出數據。
5, 前臺報表實現
前臺展現會根據客戶提出的不一樣要求,來肯定報表的具體呈現形式,諸如 柱形圖:用於顯現一段時間內的數據變化或各項間的比擬情況
餅圖:能夠明顯知道你所作統計的事物的比例
線形圖:簡單易懂,明顯的知道所統計內容的行走趨勢
6, 數據驗證
咱們已經按照報表模型完成了開發,可是BI的最主要特色是數據的準確性。接下來的工做即是進行數據驗證。若是說報表展示的數據與數據庫中的數據相同就已經完成了,那就大錯特錯了,只有與客戶實際的業務數據一致纔是正確的。
7, 試運行
當確保業務知足和開發的完整正確的前提下,就能夠運行了。
三, 其餘知識要點概括 瀏覽器
1. BI
啓動成功後,在瀏覽器地址欄輸入:主機名:9704/nalaytics 能夠進入
BI設計界面,能夠進行報表等開發.(主機名:7001/nalaytics 是簡單安裝後進入BI設計界面須要輸入的URL,上述填寫9704,意味着是企業安裝)。
2. 在瀏覽器地址欄輸入:主機名:7001/em 進入BIServer控制檯界面。 3. 在瀏覽器地址欄輸入:主機名:7001/console 進入weblogic控制檯界面。數據結構