一、數據倉庫:是一種數據存儲結構。是一種多個異構數據源在單一站點的贊成的模式祖師的存儲,以支持管理決策。數據庫
二、數據倉庫技術包括數據清理、數據集成和聯機分析處理(OLAP)。ide
三、數據挖掘:是從大量數據中挖掘有趣模式和知識的過程。數據源包括數據庫、數據倉庫、Web、其餘信息存儲庫或當臺的流入系統數據。對象
四、數據庫的最基本形式是:數據庫數據、數據倉庫數據、事務數據。事務
五、存在大量的數據挖掘功能:特徵化與區分、頻繁模式、關聯換個相關性的挖掘、分類與迴歸、聚類分析、利羣點分析數據挖掘
六、數據挖掘功能是指用於指定數挖掘任務發現的模式。這些任務能夠分爲兩類:描述性和預測性。描述性挖掘是指刻畫目標數據中數據的通常性質。預測性挖掘是指挖掘任務在當前任務上進行概括,以便作出預測。方法
七、類、概念描述:特徵化與區分技術
數據特徵化是指數據目標類數據的通常特性或特徵的彙總。數據特徵化的輸出能夠用多種形式提供,例如餅圖、挑圖、曲線或者多位數據立方體和交叉表在內的多維表。統計
數據區分是指將目標類的數據對象的通常特性與一個或者多個類比對象的通常特性進行比較。數據
八、挖掘頻繁模式、關聯和相關性異常
頻繁模式是指數據中頻繁出現的模式。
滾立案分析:包含單個謂詞的關聯規則成爲單維關聯規則。
九、迴歸分析是最經常使用的一種數值預測統計學方法。
相關分析可能須要在分析和迴歸以前進行,它試圖識別與分類和迴歸過程顯著相關的屬性。
十、離羣點扥洗被稱爲離羣點分析或者異常挖掘
十一、存在一些模式興趣度的客觀度量。一種客觀度量是規則的指出度,他表示事務數據庫中知足骨子額的事務所佔的百分比。另外一種是置信度,他表示規則的確信程度。support(X=>Y)=P(XuY) confidence(X=>Y)=P(Y|X)其餘興趣度量包含分類規則的準確率和覆蓋率。準確率告訴咱們被一個會澤正確分類的數據所佔的比例,覆蓋率表示規則可使用的數據所佔的百分比.專管興趣度度量基於用戶對數據的信念