機器學習常見分類算法

時間 2019-11-13

標籤機器學習常見分類算法简体版

原文原文鏈接

機器學習常見分類算法

樸素貝葉斯分類器（Naive Bayes）

主要思想：算法

樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。對於給定的訓練數據集，首先基於特徵條件獨立假設學習輸入/輸出的聯合機率分佈；而後基於此模型，對給定的輸入x，利用貝葉斯定理求出後驗機率最大的輸出y。網絡

貝葉斯定理：機器學習

1）優勢： 在數據較少的狀況下依然有效，能夠處理多類別問題，接受大量數據訓練，查詢時具備高速度函數

2）缺點： 難以知足輸入特徵之間相互獨立的前提學習

支持向量機（SVM）

主要思想：測試

支持向量機是一種二類分類模型，他的基本模型是定義在特徵空間上的間隔最大的線性分類器，間隔最大使它有別於感知機；支持向量機還包括核技巧，這使它成爲實質上的非線性分類器。優化

圖1 WEKA 中的SMO MarginCurve圖像spa

圖2 WEKA 中的SMO混淆矩陣rest

1）優勢： SVM理論提供了一種避開高維空間，簡化高維空間問題的求解難度的方法，具備較好的泛化推廣能力。htm

2）缺點： 對於每一個高維空間在此空間的映射如何肯定，也就是核函數,如今尚未合適的方法；傳統SVM進行二次規劃的時候涉及到矩陣運算，所以對大規模的訓練樣本難以實施。

K-最鄰近（K-Nearest Neighbor）

主要思想：

K-最近鄰的思路是：若是一個樣本在特徵空間中的 k 個最類似即特徵空間中最鄰近)的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別。KNN 算法中，所選擇的鄰居都是已經正確分類的對象。該方法在分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。

理論證實測試集很大，k也很大時，錯誤率趨向於理論最小值。

1）優勢：無需估計參數，無需訓練；適合對稀有事件進行分類；特別適合於多分類問題

2）缺點：計算量較大；當樣本不平衡時，有可能致使當輸入一個新樣本時，該樣本的K個鄰居中大容量類的樣本佔多數。

邏輯斯諦迴歸（Logistic regression）

主要思想：

在統計學中，線性迴歸(Linear Regression)是利用稱爲線性迴歸方程的最小平方函數對一個或多個自變量和因變量之間關係進行建模的一種迴歸分析。這種函數是一個或多個稱爲迴歸係數的模型參數的線性組合。只有一個自變量的狀況稱爲簡單迴歸,大於一個自變量狀況的叫作多元迴歸。

迴歸分析中，只包括一個自變量和一個因變量，且兩者的關係可用一條直線近似表示，這種迴歸分析稱爲一元線性迴歸分析。若是迴歸分析中包括兩個或兩個以上的自變量，且因變量和自變量之間是線性關係，則稱爲多元線性迴歸分析。

在線性迴歸中，數據使用線性預測函數來建模，而且未知的模型參數也是經過數據來估計。這些模型被叫作線性模型。

1）優勢：計算代價不高，易於理解和實現，且若採用隨機梯度上升法能夠在線學習；

2）缺點：可能容易欠擬合，分類精度不高，難以找到足夠的特徵。

決策樹（Decision trees）

主要思想（以c4.5舉例）：

決策樹是一種基本的分類與迴歸方法。決策樹模型呈樹形結構，在分類問題中，表示基於特徵對實例進行分類的過程。它能夠認爲是if-then規則的集合，也能夠認爲是定義在特徵空間與類空間上的條件機率分佈。

C4.5算法首先定義了「分裂信息」，其定義能夠表示成：

增益率被定義爲：

注：C4.5選擇具備最大增益率的屬性做爲分裂屬性

圖3 WEKA中的J48決策樹

1）優勢：計算量相對較小，且容易轉化成分類規則，挖掘出的分類規則準確性高，便於理解，決策樹能夠清晰的顯示哪些字段比較重要。

2）缺點：因爲進行深度優先搜索，因此算法受內存大小限制，難於處理大訓練集；對連續性的字段比較難做出準確的預測。

神經網絡（Neural networks）

主要思想（舉例BP神經網絡）：

BP（Back Propagation）網絡是1986年由Rumelhart和McCelland爲首的科學家小組提出，是一種按偏差逆傳播算法訓練的多層前饋網絡，是目前應用最普遍的神經網絡模型之一。BP網絡能學習和存貯大量的輸入-輸出模式映射關係，而無需事前揭示描述這種映射關係的數學方程。它的學習規則是使用最速降低法，經過反向傳播來不斷調整網絡的權值和閾值，使網絡的偏差平方和最小。BP神經網絡模型拓撲結構包括輸入層、隱層和輸出層。

基本工做流程：

一、初始化網絡權值和神經元的閾值（最簡單的辦法就是隨機初始化）

二、前向傳播：按照公式一層一層的計算隱層神經元和輸出層神經元的輸入和輸出。

三、後向傳播：根據公式修正權值和閾值，直到知足終止條件。

圖4 SPSS Modeler中的BP神經網絡

1）優勢：數學理論已證實它具備實現任何複雜非線性映射的功能。這使得它特別適合於求解內部機制複雜的問題；網絡能經過學習帶正確答案的實例集自動提取「合理的」求解規則，即具備自學習能力。

2）缺點：因爲BP算法本質上爲梯度降低法，而它所要優化的目標函數又很是複雜，使得BP算法低效，且容易出現局部極值的狀況。

主題模型（LDA）

主要思想：

LDA（Latent Dirichlet Allocation）是一種文檔主題生成模型，也稱爲一個三層貝葉斯機率模型，包含詞、主題和文檔三層結構。所謂生成模型，就是說，咱們認爲一篇文章的每一個詞都是經過「以必定機率選擇了某個主題，主題中以必定機率選擇了文檔的分類」這樣一個過程獲得。依據文檔中的詞語搭配決定文檔包含的主題（一或多個），再依據文檔所包含的主題對文檔進行分類。

圖5 LDA原理模型（1）

圖6 LDA原理模型（2）

1）優勢： 結合了Dirichlet分佈，Gibbs Sampling，文本建模等一些知識，生成的模型較比貝葉斯文本建模，PLSA建模有時更爲精確。

2）缺點： 主題個數的選取尚無足夠的理論支持，多數都是依靠經驗。