數據預處理03_ 數據集成

數據集成 數據集成就是將多個數據源中的數據合併,存放在一個一致的數據存儲中:如存放在數據倉庫中。這些數據源可能包括多個數據庫、數據立方體或一般文件。 1.實體識別問題: 實體識別問題就是要合理匹配來自多個信息源的等價實體。 例如:如何確信一個數據庫中的customer_id和另一個數據庫中的cust_number指的是相同的屬性?每個屬性的元數據包括名字、含義、數據類型和屬性的允許取值範圍,以及處
相關文章
相關標籤/搜索