數據挖掘基礎知識

1、數據挖掘技術的基本概念算法

隨着計算機技術的發展,各行各業都開始採用計算機及相應的信息技術進行管理和運營,這使得企業生成、收集、存貯和處理數據的能力大大提升,數據量與 日俱增。企業數據其實是企業的經驗積累,當其積累到必定程度時,必然會反映出規律性的東西;對企業來,堆積如山的數據無異於一個巨大的寶庫。在這樣的背 景下,人們迫切須要新一代的計算技術和工具來開採數據庫中蘊藏的寶藏,使其成爲有用的知識,指導企業的技術決策和經營決策,使企業在競爭中立於不敗之地。 另外一方面,近十餘年來,計算機和信息技術也有了長足的進展,產生了許多新概念和新技術,如更高性能的計算機和操做系統、因特網(intemet)、數據倉 庫(datawarehouse)、神經網絡等等。在市場需求和技術基礎這兩個因素都具有的環境下,數據挖掘技術或稱 KDD(KnowledgeDiscovery in Databases;數據庫知識發現)的概念和技術就應運而生了。數據庫

數據挖掘(Data Mining)旨在從大量的、不徹底的、有噪聲的、模糊的、隨機的數據中, 提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識。還有不少和這一術語相近似的術語,如從數據庫中發現知識(KDD)、數據分析、數據融 合(Data Fusion)以及決策支持等。網絡

二 、數據挖掘的基本任務機器學習

數據挖掘的任務主要是關聯分析、聚類分析、分類、預測、時序模式和誤差分析等。ide

1. 關聯分析(association analysis)函數

關聯規則挖掘由Rakesh Apwal等人首先提出。兩個或兩個以上變量的取值之間存在的規律性稱爲關聯。數據關聯是數據庫中存在的一類重要的、可被發現的知識。關聯分爲簡單關聯、 時序關聯和因果關聯。關聯分析的目的是找出數據庫中隱藏的關聯網。通常用支持度和可信度兩個閥值來度量關聯規則的相關性,還不斷引入興趣度、相關性等參 數,使得所挖掘的規則更符合需求。工具

2. 聚類分析(clustering)性能

聚類是把數據按照類似性概括成若干類別,同一類中的數據彼此類似,不一樣類中的數據相異。聚 類分析能夠創建宏觀的概念,發現數據的分佈模式,以及可能的數據屬性之間的相互關係。學習

3. 分類(classification)大數據

分類就是找出一個類別的概念描述,它表明了這類數據的總體信息,即該類的內涵描述,並用這 種描述來構造模型,通常用規則或決策樹模式表示。分類是利用訓練數據集經過必定的算法而求得分類規則。分類可被用於規則描述和預測。

4. 預測(predication)

預測是利用歷史數據找出變化規律,創建模型,並由此模型對將來數據的種類及特徵進行預測。 預測關心的是精度和不肯定性,一般用預測方差來度量。

5. 時序模式(time-series pattern)

時序模式是指經過時間序列搜索出的重複發生機率較高的模式。與迴歸同樣,它也是用己知的數據預測將來的值,但這些數據的區別是變量所處時間的不一樣。

6. 誤差分析(deviation)

在誤差中包括不少有用的知識,數據庫中的數據存在不少異常狀況,發現數據庫中數據存在的異常狀況是很是重要的。誤差檢驗的基本方法就是尋找觀察結果與參照之間的差異。

三 數據挖掘常的基本技術

1. 統計學

統計學雖然是一門「古老的」學科,但它依然是最基本的數據挖掘技術,特別是多元統計分析,如判別分析、主成分分析、因子分析、相關分析、多元迴歸分析等。

2. 聚類分析和模式識別

聚類分析主要是根據事物的特徵對其進行聚類或分類,即所謂物以類聚,以期從中發現規律和典型模式。這類技術是數據挖掘的最重要的技術之一。除傳統的基於多元統計分析的聚類方法外,近些年來模糊聚類和神經網絡聚類方法也有了長足的發展。

3. 決策樹分類技術

決策樹分類是根據不一樣的重要特徵,以樹型結構表示分類或決策集合,從而產生規則和發現規律。

4. 人工神經網絡和遺傳基因算法

人工神經網絡是一個迅速發展的前沿研究領域,對計算機科學 人工智能、認知科學以及信息技術等產生了重要而深遠的影響,而它在數據挖掘中也扮演着很是重要的角色。人工神經網絡可經過示例學習,造成描述複雜非線性系 統的非線性函數,這其實是獲得了客觀規律的定量描述,有了這個基礎,預測的難題就會迎刃而解。目前在數據挖掘中,最常使用的兩種神經網絡是BP網絡和 RBF網絡 不過,因爲人工神經網絡仍是一個新興學科,一些重要的理論問題還沒有解決。

5. 規則概括

規則概括相對來說是數據挖掘特有的技術。它指的是在大型數據庫或數據倉庫中搜索和挖掘以往不知道的規則和規律,這大體包括如下幾種形式:IF … THEN …

6. 可視化技術

可視化技術是數據挖掘不可忽視的輔助技術。數據挖掘一般會涉及較複雜的數學方法和信息技術,爲了方便用戶理解和使用這類技術,必須藉助圖形、圖象、動畫等手段形象地指導操做、引導挖掘和表達結果等,不然很難推廣普及數據挖掘技術。


四 數據挖掘技術實施的步驟

數據挖掘的過程能夠分爲6個步驟:

  • 1) 理解業務:從商業的角度理解項目目標和需求,將其轉換成一種數據挖掘的問題定義,設計出達到目標的一個初步計劃。

  • 2) 理解數據:收集初步的數據,進行各類熟悉數據的活動。包括數據描述,數據探索和數據質量驗證等。

  • 3) 準備數據:將最初的原始數據構形成最終適合建模工具處理的數據集。包括表、記錄和屬性的選擇,數據轉換和數據清理等。

  • 4) 建模:選擇和應用各類建模技術,並對其參數進行優化。

  • 5) 模型評估:對模型進行較爲完全的評價,並檢查構建模型的每一個步驟,確認其是否真正實現了預約的商業目的。

  • 6) 模型部署:建立完模型並不意味着項目的結束,即便模型的目的是爲了增進對數據的瞭解,所得到的知識也要用一種用戶可使用的方式來組織和表示。一般要將活 動模型應用到決策制訂的過程當中去。該階段能夠簡單到只生成一份報告,也能夠複雜到在企業內實施一個可重複的數據挖掘過程。控制獲得廣泛認可。

五 數據挖掘的應用現狀

數據挖掘是一個新興的邊緣學科,它聚集了來自機器學習、模式識別、數據庫、統計學、人工智能以及管理信息系統等各學科的成果。多學科的相互交融和相 互促進,使得這一新學科得以蓬勃發展,並且已初具規模。在美國國家科學基金會(NSF)的數據庫研究項目中,KDD被列爲90年代最有價值的研究項目。人 工智能研究領域的科學家也廣泛認爲,下一我的工智能應用的重要課題之一,將是以機器學習算法爲主要工具的大規模的數據庫知識發現。儘管數據挖掘仍是一個很 新的研究課題,但它所固有的爲企業創造巨大經濟效益的潛力,已使其很快有了許多成功的應用,具備表明性的應用領域有市場預測、投資、製造業、銀行、通信 等。

美國鋼鐵公司和神戶鋼鐵公司利用基於數據挖掘技術的ISPA系統,研究分析產品性能規律和進行質量控制,取得了顯著效果。通用電器公司(GE)與法 國飛機發動機制造公司(sNEcMA),利用數據挖掘技術研製了CASSIOP.EE質量控制系統,被三家歐洲航空公司用於診斷和預測渡音737的故障, 帶來了可觀的經濟效益。該系統於1996年獲歐洲一等創造性應用獎。

享有盛譽的市場研究公司,如美國的A.C.一Nielson和Information Resources,歐洲的GFK和ln.fratest Burk等紛紛開始使用數據挖掘工具來應付迅速增加的銷售和市場信息數據。商家的激烈競爭致使了市場快速飽和,產品的迅速更新,使得經營者對市場信息的需 求格外強烈利用數據挖掘技術所造成的市場預測能力和服務,使這些市場研究公司取得了巨大收益。

英國廣播公司(BBC)也應用數據挖掘技術來預測電視收視率,以便合理安排電視節目時刻表。信用卡公司Alllelicall KxT,ress自採用數據挖掘技術後,信用卡使用率增長了10% 一15%。AT&T公司賃借數據挖掘技術技術偵探國際電話欺詐行爲,能夠儘快發現國際電話使用中的不正常現象。

【編輯推薦】

  1. 數據挖掘:大數據發展的核心驅動力

  2. 數據挖掘:基於機器學習方法的POI品類推薦算法

  3. 這纔是真正的物流大數據挖掘思路!

  4. R語言學習路線和經常使用數據挖掘包

  5. 數據挖掘大牛:我熱愛大數據分析的6個緣由

相關文章
相關標籤/搜索