來源: http://biostar.blog.sohu.com/61246458.htmlhtml
訓練:訓練集——>特徵選取——>訓練——>分類器
分類:新樣本——>特徵選取——>分類——>判決
最初的數據挖掘分類應用大多都是在這些方法及基於內存基礎上所構造的算法。目前數據挖掘方法都要求具備基於外存以處理大規模數據集合能力且具備可擴展能力。下面對幾種主要的分類方法作個簡要介紹:
(1)決策樹
決策樹概括是經典的分類算法。它採用自頂向下遞歸的各個擊破方式構造決策樹。樹的每個結點上使用信息增益度量選擇測試屬性。能夠從生成的決策樹中提取規則。
(2) KNN法(K-Nearest Neighbor)
KNN法即K最近鄰法,最初由Cover和Hart於1968年提出的,是一個理論上比較成熟的方法。該方法的思路很是簡單直觀:若是一個樣本在特徵空間 中的k個最類似(即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別。該方法在定類決策上只依據最鄰近的一個或者幾個樣本的類 別來決定待分樣本所屬的類別。
KNN方法雖然從原理上也依賴於極限定理,但在類別決策時,只與極少許的相鄰樣本有關。所以,採用這種方法能夠較好地避免樣本的不平衡問題。另外,因爲 KNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來肯定所屬類別的,所以對於類域的交叉或重疊較多的待分樣本集來講,KNN方法較其餘方法 更爲適合。
該方法的不足之處是計算量較大,由於對每個待分類的文本都要計算它到全體已知樣本的距離,才能求得它的K個最近鄰點。目前經常使用的解決方法是事先對已知樣 本點進行剪輯,事先去除對分類做用不大的樣本。另外還有一種Reverse KNN法,能下降KNN算法的計算複雜度,提升分類的效率。
該算法比較適用於樣本容量比較大的類域的自動分類,而那些樣本容量較小的類域採用這種算法比較容易產生誤分。
(3) SVM法
SVM法即支持向量機(Support Vector Machine)法,由Vapnik等人於1995年提出,具備相對優良的性能指標。該方法是創建在統計學習理論基礎上的機器學習方法。經過學習算法, SVM能夠自動尋找出那些對分類有較好區分能力的支持向量,由此構造出的分類器能夠最大化類與類的間隔,於是有較好的適應能力和較高的分準率。該方法只需 要由各種域的邊界樣本的類別來決定最後的分類結果。
支持向量機算法的目的在於尋找一個超平面H(d),該超平面能夠將訓練集中的數據分開,且與類域邊界的沿垂直於該超平面方向的距離最大,故SVM法亦被稱 爲最大邊緣(maximum margin)算法。待分樣本集中的大部分樣本不是支持向量,移去或者減小這些樣本對分類結果沒有影響,SVM法對小樣本狀況下的自動分類有着較好的分類 結果。
(4) VSM法
VSM法即向量空間模型(Vector Space Model)法,由Salton等人於60年代末提出。這是最先也是最出名的信息檢索方面的數學模型。其基本思想是將文檔表示爲加權的特徵向量:D=D (T1,W1;T2,W2;…;Tn,Wn),而後經過計算文本類似度的方法來肯定待分樣本的類別。當文本被表示爲空間向量模型的時候,文本的類似度就可 以藉助特徵向量之間的內積來表示。
在實際應用中,VSM法通常事先依據語料庫中的訓練樣本和分類體系創建類別向量空間。當須要對一篇待分樣本進行分類的時候,只須要計算待分樣本和每個類別向量的類似度即內積,而後選取類似度最大的類別做爲該待分樣本所對應的類別。
因爲VSM法中須要事先計算類別的空間向量,而該空間向量的創建又很大程度的依賴於該類別向量中所包含的特徵項。根據研究發現,類別中所包含的非零特徵項 越多,其包含的每一個特徵項對於類別的表達能力越弱。所以,VSM法相對其餘分類方法而言,更適合於專業文獻的分類。
(5) Bayes法
Bayes法是一種在已知先驗機率與類條件機率的狀況下的模式分類方法,待分樣本的分類結果取決於各種域中樣本的全體。
設訓練樣本集分爲M類,記爲C={c1,…,ci,…cM},每類的先驗機率爲P(ci),i=1,2,…,M。當樣本集很是大時,能夠認爲P(ci)= ci類樣本數/總樣本數。對於一個待分樣本X,其歸於cj類的類條件機率是P(X/ci),則根據Bayes定理,可獲得cj類的後驗機率P (ci/X):
P(ci/x)=P(x/ci)·P(ci)/P(x)(1)
若P(ci/X)=MaxjP(cj/X),i=1,2,…,M,j=1,2,…,M,則有x∈ci(2)
式(2)是最大後驗機率判決準則,將式(1)代入式(2),則有:
若P(x/ci)P(ci)=Maxj〔P(x/cj)P(cj)〕,i=1,2,…,M,j=1,2,…,M,則x∈ci
這就是經常使用到的Bayes分類判決準則。通過長期的研究,Bayes分類方法在理論上論證得比較充分,在應用上也是很是普遍的。
Bayes方法的薄弱環節在於實際狀況下,類別整體的機率分佈和各種樣本的機率分佈函數(或密度函數)經常是不知道的。爲了得到它們,就要求樣本 足夠大。另外,Bayes法要求表達文本的主題詞相互獨立,這樣的條件在實際文本中通常很難知足,所以該方法每每在效果上難以達到理論上的最大值。
(6)神經網絡
神經網絡分類算法的重點是構造閾值邏輯單元,一個值邏輯單元是一個對象,它能夠輸入一組加權係數的量,對它們進行求和,若是這個和達到或者超過了 某個閾值,輸出一個量。若有輸入值X1, X2, ..., Xn 和它們的權係數:W1, W2, ..., Wn,求和計算出的 Xi*Wi ,產生了激發層 a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn),其中Xi 是各條記錄出現頻率或其餘參數,Wi是實時特徵評估模型中獲得的權係數。神經網絡是基於經驗風險最小化原則的學習算法,有一些固有的缺陷,好比層數和神經 元個數難以肯定,容易陷入局部極小,還有過學習現象,這些自己的缺陷在SVM算法中能夠獲得很好的解決。ios
來源: http://www.cnblogs.com/zhangchaoyang算法
大類機器學習 |
名稱函數 |
關鍵詞post |
有監督分類性能 |
決策樹學習 |
信息增益測試 |
Gini指數,Χ2統計量,剪枝 |
||
非參數估計,貝葉斯估計 |
||
Fishre判別,特徵向量求解 |
||
類似度度量:歐氏距離、街區距離、編輯距離、向量夾角、Pearson相關係數 |
||
邏輯斯諦迴歸(二值分類) |
參數估計(極大似然估計)、S型函數 |
|
非參數估計、正則化理論、S型函數 |
||
一個輸出層細胞跟幾個競爭層細胞相連 |
||
S型函數、梯度降低法 |
||
支持向量機(二值分類) |
二次規化,Lagrange乘數法,對偶問題,最優化,序列最小優化,核技巧 |
|
單層感知器 |
只具備線性可分的能力 |
|
雙隱藏層感知器 |
足以解決任何複雜的分類問題 |
|
無監督分類 |
質心 |
|
圖劃分,相對互連度,相對緊密度 |
||
B樹,CF三元組 |
||
核心點,密度可達 |
||
參數估計(極大似然估計) |
||
圖劃分,奇異值求解 。全局收斂 |
||
無導師的競爭學習 |
||
通常線性迴歸 |
參數估計,最小二乘法,通常不用於分類而用於預測 |
|
邏輯斯諦迴歸(二值分類) |
參數估計(極大似然估計),S型函數 |
|
關聯規則挖掘 |
頻繁1項集,FP-Tree,條件模式基,後綴模式 |
|
降維 |
協方差矩陣,奇異值分解 |
|
推薦 |
稀疏向量的類似度度量 |
方法細分 |
應用場所 |
||||
參數估計 |
極大似然估計 |
線性迴歸。假設偏差知足均值爲0的正態分佈,從而轉化爲最小二乘法 |
|||
Logistic迴歸。梯度降低迭代法求似然函數的極值 |
|||||
高斯混合模型。 |
|||||
非參數估計 |
|
徑向基函數網絡 |
|||
無參數假設檢驗 |
χ2檢驗 |
特徵詞選取,分類迴歸樹的終止條件 |
|||
秩和檢驗 |
|
||||
Pearson相關係數(假設x,y成對地從正態分佈中取得) |
基於向量空間模型的文本分類,用戶喜愛推薦系統 |
||||
Spearman秩相關係數(無參數假設檢驗) |
|
||||
最優化方法 |
梯度降低法 |
極大似然估計(迴歸分析、GMM) 支持向量機 線性判別分析 |
|||
牛頓迭代法及其變種 |
|||||
有約束時經過Lagrange乘數法轉換成無約束問題 |
|||||
求特徵值/特徵向量 |
線性判別分析 |
降維 |
|||
奇異值分解(僅針對對稱矩陣) |
主成分分析 |
||||
譜聚類 |
|||||
信息增益 |
特徵詞選擇 |
||||
決策樹 |
|||||
互信息 |
特徵詞選擇 |
||||
交叉熵 |
特徵詞選擇,稀有事件建模仿真,多峯最優化問題 |
||||
多項式核函數 |
SVM RBF網絡 |
||||
高斯核函數(徑向基函數) |
|||||
雙極性核函數 |
|||||
單極性Sigmoid函數 |
Logistic迴歸 |
||||
BP神經網絡 |
|||||
協方差 |
Pearson相關係數 |
||||
PCA |
|||||
高斯混合模型 |
|||||
向前向後算法 |
|||||
基函數 |
高斯混合模型 |
||||
徑向基函數網絡 |
|||||
平滑算法 |
拉普拉斯平滑 |
貝葉斯分類 隱馬爾可夫模型 |
|||
Good-Turing平滑 |
|||||
隱馬爾可夫模型 |
|
||||
|
Cover定理指出:將複雜的模式分類問題非線性地映射到高維空間將比投影到低維空間更可能線性可分。 因此SVM和RBF網絡都試圖把樣本從低維空間映射到高維空間再進行分類。
可笑的是,另外一些方法則是把輸入樣本從高維降到低維後再進行分類或迴歸分析,如PCA、SOFM網絡、LDA、譜聚類,它們認爲樣本在低維特徵空間有更清晰的表達,更容易發現規律。