下面介紹十種數據挖掘(Data Mining)的分析方法,以便於你們對模型的初步瞭解,這些都是平常挖掘中常常遇到的算法,但願對你們有用!(甚至有數據挖掘公司,用其中的一種算法就能獨步天下)算法
一、基於歷史的MBR分析(Memory-Based Reasoning;MBR)網絡
基於歷史的MBR分析方法最主要的概念是用已知的案例(case)來預測將來案例的一些屬性(attribute),一般找尋最類似的案例來作比較。併發
記憶基礎推理法中有兩個主要的要素,分別爲距離函數(distance function)與結合函數(combination function)。距離函數的用意在找出最類似的案例;結合函數則將類似案例的屬性結合起來,以供預測之用。記憶基礎推理法的優勢是它允許各類型態的數 據,這些數據不需服從某些假設。另外一個優勢是其具有學習能力,它能藉由舊案例的學習來獲取關於新案例的知識。較使人詬病的是它須要大量的歷史數據,有足夠 的歷史數據方能作良好的預測。此外記憶基礎推理法在處理上亦較爲費時,不易發現最佳的距離函數與結合函數。其可應用的範圍包括欺騙行爲的偵測、客戶反應預 測、醫學診療、反應的歸類等方面。機器學習
二、購物籃分析(Market Basket Analysis)函數
購物籃分析最主要的目的在於找出什麼樣的東西應該放在一塊兒?商業上的應用在藉由顧客的購買行爲來了解是什麼樣的顧客以及這些顧客爲何買這些產品,找出相 關的聯想(association)規則,企業藉由這些規則的挖掘得到利益與創建競爭優點。舉例來講,零售店可藉由此分析改變置物架上的商品排列或是設計 吸引客戶的商業套餐等等。工具
購物籃分析基本運做過程包含下列三點:學習
(1)選擇正確的品項:這裏所指的正確乃是針對企業體而言,必需要在數以百計、千計品項中選擇出真正有用的品項出來。設計
(2)經由對共同發生矩陣(co-occurrence matrix)的探討挖掘出聯想規則。事件
(3)克服實際上的限制:所選擇的品項愈多,計算所耗費的資源與時間愈久(呈現指數遞增),此時必須運用一些技術以下降資源與時間的損耗。ip
購物籃分析技術能夠應用在下列問題上:
(1)針對信用卡購物,可以預測將來顧客可能購買什麼。
(2)對於電信與金融服務業而言,經由購物籃分析可以設計不一樣的服務組合以擴大利潤。
(3)保險業能藉由購物籃分析偵測出可能不尋常的投保組合並做預防。
(4)對病人而言,在療程的組合上,購物籃分析能做爲是否這些療程組合會致使併發症的判斷依據。
三、決策樹(Decision Trees)
決策樹在解決歸類與預測上有着極強的能力,它以法則的方式表達,而這些法則則以一連串的問題表示出來,經由不斷詢問問題最終能導出所需的結果。典型的決策 樹頂端是一個樹根,底部有許多的樹葉,它將紀錄分解成不一樣的子集,每一個子集中的字段可能都包含一個簡單的法則。此外,決策樹可能有着不一樣的外型,例如二元 樹、三元樹或混和的決策樹型態。
四、遺傳算法(Genetic Algorithm)
遺傳算法學習細胞演化的過程,細胞間可經由不斷的選擇、複製、交配、突變產生更佳的新細胞。基因算法的運做方式也很相似,它必須預先創建好一個模式,再經 由一連串相似產生新細胞過程的運做,利用適合函數(fitness function)決定所產生的後代是否與這個模式吻合,最後僅有最吻合的結果可以存活,這個程序一直運做直到此函數收斂到最佳解。基因算法在羣集 (cluster)問題上有不錯的表現,通常可用來輔助記憶基礎推理法與類神經網絡的應用。
五、聚類分析(Cluster Detection)
這個技術涵蓋範圍至關普遍,包含基因算法、類神經網絡、統計學中的羣集分析都有這個功能。它的目標爲找出數據中之前未知的類似羣體,在許許多多的分析中,剛開始都運用到羣集偵測技術,以做爲研究的開端。
六、鏈接分析(Link Analysis)
鏈接分析是以數學中之圖形理論(graph theory)爲基礎,藉由記錄之間的關係發展出一個模式,它是以關係爲主體,由人與人、物與物或是人與物的關係發展出至關多的應用。例如電信服務業可藉 連結分析收集到顧客使用電話的時間與頻率,進而推斷顧客使用偏好爲什麼,提出有利於公司的方案。除了電信業以外,越來越多的營銷業者亦利用連結分析作有利於 企業的研究。
七、OLAP分析(On-Line Analytic Processing;OLAP)
嚴格提及來,OLAP分析並不算特別的一個數據挖掘技術,可是透過在線分析處理工具,使用者能更清楚的瞭解數據所隱藏的潛在乎涵。如同一些視覺處理技術通常,透過圖表或圖形等方式顯現,對通常人而言,感受會更友善。這樣的工具亦能輔助將數據轉變成信息的目標。
八、神經網絡(Neural Networks)
神經網絡是以重複學習的方法,將一串例子交與學習,使其概括出一足以區分的樣式。若面對新的例證,神經網絡便可根據其過去學習的成果概括後,推導出新的結果,乃屬於機器學習的一種。數據挖掘的相關問題也可採類神經學習的方式,其學習效果十分正確並可作預測功能。
九、判別分析(Discriminant Analysis)
當所遭遇問題它的因變量爲定性(categorical),而自變量(預測變量)爲定量(metric)時,判別分析爲一很是適當之技術,一般應用在解決 分類的問題上面。若因變量由兩個羣體所構成,稱之爲雙羣體 —判別分析 (Two-Group Discriminant Analysis);若由多個羣體構成,則稱之爲多元判別分析(Multiple Discriminant Analysis;MDA)。
(1) 找出預測變量的線性組合,使組間變異相對於組內變異的比值爲最大,而每個線性組合與先前已經得到的線性組合均不相關。
(2) 檢定各組的重心是否有差別。
(3) 找出哪些預測變量具備最大的區別能力。
(4) 根據新受試者的預測變量數值,將該受試者指派到某一羣體。
十、羅吉斯迴歸分析(Logistic Analysis)
當判別分析中羣體不符合正態分佈假設時,羅吉斯迴歸分析是一個很好的替代方法。羅吉斯迴歸分析並不是預測事件(event)是否發生,而是預測該事件的機 率。它將自變量與因變量的關係假定是S行的形狀,當自變量很小時,機率值接近爲零;當自變量值慢慢增長時,機率值沿着曲線增長,增長到必定程度時,曲線協 率開始減少,故機率值介於0與1之間。