書名:數據挖掘導論(Introduction to Data Mining)
做者: Pang-Ning Tan / Michael Steinbach / Vipin Kumar
出版社: 人民郵電出版社
譯者: 範明 / 範宏建
出版年: 2010-12-10
ISBN: 9787115241009算法
第1章 緒論
什麼是數據挖掘
數據挖掘是在大型數據存儲庫中,自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現先前未知的有用模式。數據挖掘還能夠預測將來觀測結果。數據庫
數據挖掘要解決的問題
傳統數據分析技術遇到的實際問題:
可伸縮:須要處理海量數據,算法必須是可伸縮的(scalable),可能須要新的數據結構等。
高維性:須要處理高維數據,某些數據分析算法,隨着維度的增長,計算複雜度迅速增長。
異種數據和複雜數據:須要處理異種和複雜數據,如半結構化數據,傳統的數據分析方法只能處理包含相同類型屬性的數據集。
數據的全部權與分佈:須要處理的數據不必定存放在同一個站點或歸屬同一個機構,這就須要開發分佈式數據挖掘技術。
非傳統的分析:傳統的統計方法基於一種假設-檢驗模式,即提出假設,設計實驗,分析數據,費力勞神。數據結構
數據挖掘與其餘學科
數據挖掘利用了以下一些領域的思想:機器學習
- 來自統計學的抽樣、估計和假設檢驗;
- 人工智能、模式識別和機器學習的搜索算法、建模技術和學習理論;
- 以及最優化、進化計算、信息論、信號處理、可視化和信息檢索等其餘領域;
- 數據庫系統提供有效的存儲、索引和查詢處理;
- 高性能並行計算和分佈式技術處理海量數據集。
數據挖掘的任務
- 預測任務
根據其餘屬性的值,預測特定屬性的值。被預測的屬性通常稱爲目標變量(target variable)或因變量(dependent variable),而用來作預測的屬性被稱爲解釋變量(explanatory variable)或自變量(independent variable)。
- 描述任務
其目標是導出歸納數據中潛在聯繫的模式(相關、趨勢、聚類、軌跡、異常)。本質上,描述性任務一般是探索性的,而且經常須要後續處理技術驗證和解釋。
本書涉及的主題
- 預測建模(predictive modeling)
以說明變量函數的方式爲目標變量創建模型。有兩類預測建模任務:分類(classification),用於預測離散的目標變量;迴歸(regression),用於預測連續的目標變量。預測建模可用來肯定顧客對產品促銷活動的反應,預測地球生態系統的擾動。
- 關聯分析(association analysis)
用來發現描述數據中強關聯特徵的模式。所發現的模式一般用蘊含規則或特徵子集的形式表示。因爲搜索空間是指數規模的,關聯分析的目標是以有效的方式提取最有趣的模式。關聯分析可用來找出具備相關功能的基因組,理解地球氣候系統不一樣元素之間的聯繫。
- 聚類分析(cluster analysis)
旨在發現緊密相關的觀測值組羣,使得與屬於不一樣簇的觀測值相比,屬於同一簇的觀測值相互之間儘量類似。聚類分析可用來對顧客進行分組,找出顯著影響地球氣候的海洋區域。
- 異常檢測(anomaly detection) 識別其特徵顯著不一樣於其餘數據的觀測值,這樣的觀測值稱爲異常點(anomaly)或離羣點(outlier)。異常檢測課用來檢測欺詐行爲,判斷生態系統擾動。