數據集成是當下比較熱門的話題,相關的產品和平臺也愈來愈多。很是多CIO都在各類數據集成平臺和產品之間猶豫不決。所以對數據集成平臺的框架體系有全面的理解,對各個廠家產品所提供的功能有深刻的認識才幹爲數據平臺選型的決策提供可靠的保證。html
我有幸參與了國內一個知名企業的集成平臺的設計工做,並主導了數據集成平臺的需求分析和產品選型工做。此次工做中,研究了很是多新的技術方向和產品,如下我主要講一下數據集成領域的一種新興的產品平臺主數據管理平臺MDM(Master Data Management)。數據庫
主數據的概念安全
首先介紹一下什麼是主數據。這裏借用其它站點的一個數據分類模型,咱們可以看到有元數據(metadata),引用數據(Reference Data),主數據(Master Data),企業結構數據(Enterprise structure Data),交易活動數據(Transaction Activity Data),交易審計數據(Transaction Audit Data)這六大類數據。oracle
簡要解釋一下這六大類的數據,關於這些數據分類的定義可以在網上很是easy的找到。app
元數據:數據的數據,平時咱們設計表時,大部分屬性字段就是元數據。比方,性別,國籍,出生省份等。這個是最接近天然意義的的數據。框架
引用數據:元數據的可能取值範圍,咱們設計表時所說的數據字典每每就是引用數據。比方,性別僅僅能是男和女,男和女就是引用數據。國家的引用數據就是世界上這100多個國家和地區;數據庫設計
主數據:在咱們數據庫設計中最重要的一些實體,是由元數據和引用數據實例的集合。DMReview 專欄做家 Jane Griffin 將主數據定義爲「...用於爲核心業務實體建立和維護全企業‘記錄系統’,以記錄業務交易並評定這些實體的業績所需的信息。」平時咱們常碰到的客戶信息,產品信息都屬於主數據。對於主數據的介紹,咱們會在後面具體展開說明。工具
企業結構化數據:企業業務中所需的數據實體 ,多是多個主數據的集合。不一樣行業的結構化數據會有很是大不一樣。this
交易活動數據:主數據之間活動產生的數據。比方客戶購買產品的交易記錄就是交易活動數據,工廠生產產品,生產記錄也是交易活動數據。編碼
交易審計數據:咱們對數據的所有活動都經過交易審計數據進行記錄。比方咱們對客戶信息改動的操做,對交易的添加和刪除操做,這些活動在很是多關鍵系統(比方銀行)都需要記錄,以合符對應法規的要求(如 Basel II、薩班斯—奧克斯利法案)。
下圖中數據模型中的藍色越深表明語義相關性越強和數據質量越重要,而黃色越深表明數據的數據數量越多、更新的頻率越快、實時抓取的數據越快、數據的生命越短。下圖可以看到,元數據的數據語義性最強,差點兒不更新,數據量最少,生命週期最長。
http://www.dmreview.com/issues/20060401/1051002-1.html
主數據是企業應用系統中最主要的業務單元,如下是一段英文的原文:Master Data are the fundamental business data in the company, typically long-lived and used across multiple applications。
Core Master Data are operational entities, supporting all fundamental business activity transactions being executed on this level. The Core Master data are common and shareable within the organization。
我認爲很是好理解,比方一個產品系統,它處理的基本數據就是生產數據。HR系統處理的基本數據是僱員;CRM系統是客戶
通常來講核心主數據包括:Customers, Contracts, Suppliers, Distributors/Partners,Employees等等。
另外,各個行業對於主數據的管理的需求和指望會有很是大不一樣,所以行業經驗對於主數據管理也是很是重要的。
主數據管理的概念
從上面的介紹能夠了解,主數據並不是什麼新的概念,但爲何以前沒有主數據管理的產品呢?事實上,解釋這個問題和解釋數據集成出現的緣由很是類似。因爲以前主數據依附於各個單獨的業務系統,比方HR, ERP,SCM,企業的站點,商業合做夥伴的系統均可能對某一個主數據有存儲,比方某個產品。問題隨之來了,如系統間數據編碼不一致;數據的冗餘;某些系統數據的不完整。舉個實際的樣例,假設咱們新建一個BI的系統,那麼有可能我需要從生產系統,財務系統,物流系統,企業合做夥伴系統多個系統拿到一個完整的關於主數據的信息。顯然,需要一種解決方式,能夠提供一個單一的主數據訪問接口,以提升主數據訪問的效率;爲企業的市場、銷售、客戶關係管理等活動提供可靠的數據,提升企業的敏捷性。
主數據管理:主數據管理是數據管理的一種高級形式,它必須構建於ETL或者EII(Enterprise Information Integration)等技術之上,所以很是多主數據管理平臺自己就包括了數據抽取、數據載入、數據轉換、數據質量管理、數據複製和數據同步等功能。也有某些廠商把MDM做爲數據集成產品的一個模塊交付給客戶。
無主數據管理時對主數據訪問
主數據分散在各個系統形成的問題:
數據在各個系統冗餘,形成數據訪問繁瑣;編碼不統一; 數據不一樣步,缺少一致性;
給企業業務帶來了例如如下影響:
延誤產品面市時間;產品供不該求;不許確的訂單交付 ;銷售效能低下;客戶愜意度減小;生產力減小。
有主數據管理平臺時對主數據的訪問的圖示
主數據管理平臺帶來的優勢:
有統一的主數據訪問平臺;企業能夠提供一致的完整的共享信息平臺;集中的內容豐富和乾淨的數據中心;爲使用數據的應用,企業業務流程和決策系統提供了一個真實的數據訪問通道。
我我的感受MDM平臺創建以後,最受益的仍是BI相關的應用。
主數據管理平臺的功能模塊
Master Repositories(主數據資源庫)::X-Ref DB, Masters DB, Master Data Applications;
Data Quality(數據質量保證):源數據的質量檢查,從源數據系統傳輸到數據緩儲區的所有數據都應首先接受質量檢查後才幹導入,源數據的質量檢查應包含接口數據文件格式是否標準化的確認、文件大小確認,記錄數、文件生成時間的確認等內容; ETL系統質量檢查,包含對主外鍵關係、編碼規範的檢查。每次數據的抽取、轉換和載入都必須有完整的日誌記錄,並在載入完畢後確認記錄數先後一致。
Data enrichment(數據深度分析,關聯性分析):企業內部分析;
System Integration(集成組件):主數據管理器;服務總線(提供data service);異常處理;映射(mapping)/轉換(Transforming)/載入(loading);數據交換(Data exchange);同步流程(Workflow);Business System;元數據/主數據訪問控制;數據錄入控制;數據採集;管理/安全
主數據管理平臺項目的實施
和很是多集成項目同樣,項目的實施最重要的是制定好業務的策略和規劃,業務人員,業務需求和行業專家對數據的理解和分析是關鍵,技術平臺僅僅是咱們思想實現的重要工具,不會起決定性的做用。
提供主數據管理平臺的產商
傳統ERP廠商:SAP和ORACLE都基於本身的產品經驗,在它們的ERP套裝軟件產品中增長了主數據管理產品。基於他們行業的經驗,他們的產品有比較完整的主數據管理比較好的數據模型和主數據管理的經驗。Oracle基於自身在CRM和製造行業的深厚經驗,提供很全面的客戶主數據產品UCM8.0和製造業主數據產品PIM12.0,
中間件廠商:TIBCO有專門的MDM產品,我看到的是他們一年前的產品介紹,感受功能還比較欠缺,缺乏很是多重要的功能,固然我尚未時間研究他們最新的產品。
ORACLE在MDM產品上有着比較明白的戰略和路線圖。在收購BEA後,相信在MDM產品上,ORACLE會結合本來就功能強大的 ODI 工具,加上BEA在數據集成領域產品的特色,基於本身原有的行業經驗,提供更全面的產品,鞏固本身在中間件產品的率先地位。
IBM收購了一個MDM產品,我一貫不太願意研究IBM的產品,因此也沒有發言權。我Software AG(WebMethod)作的也可以,有專門的產品,功能也相對無缺。但在實施團隊的力量上,要差一些。
oracle產品的資料可以在這裏下載:http://wmdata.com.cn/oracle/iwom-OFM/index.asp?frm=woohooli
對於主數據管理平臺,我會在之後的博客裏面深刻一些細節問題進行探討。歡迎有興趣的朋友提寶貴意見。