Carlo Batini, Cinzia Cappiello, Chiara Francalanci, and Andrea Maurino. 2009. Methodologies for data quality assessment and improvement. ACM Comput. Surv. 41, 3, Article 16 (July 2009), 52 pages. (gs:173)數據庫
這篇論文是關於數據質量方法的綜述,全文共52頁(其中正文34頁,附錄18頁),對現有的"data quality methodologies"進行了系統比較。app
正文首先對這個領域進行了簡單介紹(S1),而後介紹了研究數據質量方法(methodology)的六個角度(phases&steps, strategies&techniques, dimensions, costs, types of data, types of information systems) (S2),以後從上述六個角度對現有的一些主流數據質量方法進行了比較分析(S3),最後是總結和open issues。在附錄裏共介紹了13種data quality methodologies.ide
如下是論文的一些摘要和筆記:oop
1. 摘要裏提到,當前數據質量領域研究熱點在「defining methodologies that help the selection, customization, and application of data quality assessment and improvement techniques」。
2. common phases of DQ methodologies (DQM)(S2.1)
(1) state reconstruction (optional): 收集上下文信息 (DQM中通常不討論這個步驟)
(2) assessment/measurement: 根據相關的數據維度,度量數據集的質量。
measurement: 「measuring the value of a set of data quality dimensions」
assessment: 「when such measurements are compared to reference values, in order to enable a diagnosis of quality」ui
(3) improvement: 關於達到數據質量目標而選擇的步驟、策略和技術
3. assessment phase的步驟(S2.1):
(1) data analysis: 關心data schemas, data, related architectural and management rules
(2) DQ requirements analysis: 跟數據的用戶和管理員肯定存在的質量問題和須要達到的目標
(3) identification of critical areas: 選中最重要的databases & data flows,以進行量化評估
(4) process modeling: 數據產生和更新的流程模型
(5) measurement of quality: 選出受第二步識別的質量問題影響的quality dimensions,定義相關的metrics.
在assessment phase,metadata可提供一些數據理解和評估須要的信息。
4. improvement phase的步驟(S2.1):
(1) evaluation of costs
(2) assignment of process responsibilities
(3) assignment of data responsibilities
(4) identification of the causes of errors
(5) selection of strategies and techniques
(6) design of data improvement solutions
(7) process control
(8) process redesign
(9) improvement management
(10) improvement monitoring
5. 主要有兩類strategies (S2.2)
data-driven strategies: 經過直接修改數據的值來提升數據質量。
process-driven strateiges: 經過從新設計數據產生與修改的流程來提升質量。
6. data-driven strategies用到的improvement techniques有: (S2.2)
(1) acquisition of new data:獲取更高質量的數據來替換原有引發質量問題的數據
(2) standardization(or normalization): 好比使用正式名稱來取代暱稱或簡稱
(3) record linkage(記錄鏈結): 識別多個表中存在的可能指向同一個對象的數據
(4) data and schema integration: 對異質數據源的數據提供統一的視圖。存在三種類型的異質:
technological heterogeneities: 緣由是使用的產品不一樣
schema heterogeneities: 是因爲使用了不一樣的數據模型(好比一個用關係數據庫模型,另外一個用XML數據模型);或雖然使用了同一種數據模型,但表示方式不同
instance-level heterogeneities: 不一樣源爲同一個對象提供了衝突的數據
(5) source trustworthiness: 根據數據質量來選擇數據源
(6) error localization and correction: 經過一些規則來發現存在的數據質量問題並予以修正
(7) cost optimization
7. process-driven strategies主要有兩種techniques: (S2.2)
(1) process control: 在一些關鍵點(新數據產生、數據更新、數據被訪問等)進行檢查和控制
(2) process redesign: 從根源上消除產生低質量數據。
從長遠來看,process-driven techniques要比data-driven tehchniques的效果好。
8. (S2.3) 介紹了最終要的六種quality dimension
(1) accuracy: DMQ中考慮的是syntactic accuracy.
(2) completeness: 「the degree to which a given data collection includes data describing the corresponding set of real-world objects.」
在關係數據庫領域,null value與completeness比較相關。null的含義包括「不存在」、「存在但缺失」、「不知道是否存在」。
(3) consistency: 是否違法針對數據項集合定義的一套語義規則。在關係型理論中,存在兩種inategrity constraints: intra-relation constraints(年齡必須在0-120歲之間),inter-relation constraints
(4) time-related dimensions: currency(當前性?), volatility(易變性) and timeliness(及時性)
9. (S2.4) cost of data quality由兩部分組成:
(1) cost of the data quality program: 被認爲是一種預防性的成本。
(2) cost associated with poor data quality: process costs(好比因爲數據錯誤致使須要從新執行整個流程引發的成本), opportunity costs(「due to lost and missed revenues」)
要考慮這兩部分紅本的相互做用:將成本投入到前者有助於減低後者的成本。
10. (S2.5) 介紹了數據的三種類型: structured data, semistructured data (好比XML), unstructrued data (data quality 領域主要針對前兩種數據類型研究)
另外一種從製造品的角度對數據進行分類:raw data items、information products、component data items
11. (S2.6) 介紹了information systems的類型(根據系統對數據、流程和管理集成支持的程度來分類,集成的程度越低,能使用的技術就越複雜)
monolithic information system
data warehouse
distributed information system
cooperative information system
Web information system
peer-to-peer infomation system lua