十大機器學習算法優缺點

時間 2019-12-13

標籤十大機器學習算法優缺點简体版

原文原文鏈接

C4.5算法

C4.5算法的核心思想是ID3算法，是ID3算法的改進：

用信息增益率來選擇屬性，克服了用信息增益來選擇屬性時變相選擇取值多的屬性的不足；
在樹的構造過程當中進行剪枝；
能處理非離散化數據；
能處理不完整數據。

優勢：

產生的分類規則易於理解，準確率高。

缺點：

在構造過程當中，須要對數據集進行屢次的順序掃描和排序，於是致使算法的低效；
C4.5算法只適合於可以駐留內存的數據集，當訓練集大得沒法在內存容納時，程序沒法運行。

K-means算法

簡單的聚類，吧n個對象根據他們的屬性分爲k個類，k<n。

算法的核心是要優化失真函數J，使其收斂到局部最小值而不是全局最小值：

\[J=\sum_{n=1}^{N} \sum_{k=1}^{K} r_{nk} || x_n - u_k ||^2,\]
\(r_{nk}\)表示n數據第k個類，\(u_k\)是第k個類中心值。
而後求出最優的\(u_k\)：
\[u_k=\frac{\sum r_{nk} x_n}{\sum_{n} r_{nk} }\]算法

優勢：

算法速度快。

缺點：

分組的數目k是一個輸入參數，不適合的k可能返回較差的結果。

樸素貝葉斯算法

樸素貝葉斯法是基於貝葉斯定理與特徵條件獨立假設的分類方法。

算法的基礎是機率問題,分類原理是經過某對象的先驗機率,利用貝葉斯公式計算出其後驗機率,即該對象屬於某一類的機率,選擇具備最大後驗機率的類做爲該對象所屬的類。

樸素貝葉斯假設是約束性很強的假設,假設特徵條件獨立,但樸素貝葉斯算法簡單,快速, 具備較小的出錯率。

在樸素貝葉斯的應用中,主要研究了電子郵件過濾以及文本分類研究。

K最近鄰算法

缺點：

K值須要預先設定，而不能自適應
當樣本不平衡時，如一個類的樣本容量很大，二其餘類樣本容量很小，有可能致使當輸入一個新樣本時，該樣本的K個鄰居中大容量類的樣本佔多數。

該算法適用於對樣本容量比較大的類域進行自動分類。

EM最大指望算法

EM算法是基於模型的聚類算法，是在機率模型中尋找參數最大思然估計的算法，其中機率模型依賴於沒法觀測的隱藏變量。

E步估計隱含變量，M步估計其餘參數，交替將極值推向最大。

EM算法比K-means算法計算複雜，收斂較慢，不適合大規模數據集和高維數據，但比K-means算法計算結構穩定、準確。

EM算法常常用在機器學習和計算機視覺的數據集聚（data clustering）領域。

PageRank算法

Google的頁面排序算法。

基於從許多優質的網頁連接過來的網頁,一定仍是優質網頁的迴歸關係,來斷定全部網頁的重要性。

一我的有越多牛逼的朋友，他牛逼的機率就越大。數據庫

優勢：

徹底獨立於查詢，只依賴於網頁連接結構，能夠離線計算。

缺點：

PageRank算法忽略了網頁搜索的時效性；
舊網頁排序很高，存在時間長，積累了大量的in-links，擁有最新資訊的網頁排名卻很低，由於它們幾乎沒有in-links。

AdaBoost

Adaboost是一種迭代算法，其核心思想是針對同一個訓練集訓練不一樣的分類器（弱分類器），而後把這些弱分類器集合起來，構成一個更強的最終分類器（強分類器）。

算法本事該百諾數據分佈來實現的，它根據每次訓練集中每個樣本的分類是否正確，以及上一次的整體分類準確率，來肯定沒個樣本的權值。

將修改過權值的新數據集送給下層分類器進行訓練，最後將每次訓練獲得的分類器最後融合起來，做爲最後的決策分類器。

算法流程：

先經過對N個訓練樣本的學習獲得第一個弱分類器；
將分錯的樣本和其餘的新數據一塊兒構成一個新的N個訓練樣本，經過學習獲得第二個弱分類器；
講前面都分錯的樣本加上新的樣本構成另外一個新的N個訓練樣本集，經過學習獲得第三個弱分類器；
如此反覆，最終獲得通過提高的強分類器。

目前 AdaBoost 算法普遍的應用於人臉檢測、目標識別等領域。

Apriori算法

Apriori算法是一種挖掘關聯規則的算法，用於挖掘其內涵的、未知的卻又實際存在的數據關係，其核心是基於兩階段頻集思想的遞推算法。

Apriori算法的兩個階段：

尋找頻繁項集；
有頻繁項集找關聯規則。

算法缺點：

在每一步產生侯選項目集時循環產生的組合過多,沒有排除不該該參與組合的元素;
每次計算項集的支持度時,都對數據庫中的所有記錄進行了一遍掃描比較,須要很大的I/O 負載。

SVM支持向量機

支持向量機是一種基於分類邊界的方法。

基本原理：

若是訓練數據分佈在二維平面上的點,它們按照其分類彙集在不一樣的區域。機器學習

基於分類邊界的分類算法的目標是，經過訓練，找到這些分類之間的邊界。

對於多維數據（N維），能夠將他們視爲N維空間中的點，而分類邊界就是N維空間中的面，稱爲超面。

線性分類器使用超平面類型的邊界，非線性分類器使用超曲面。

支持向量機的原理是將低維空間的點映射到高維空間,使它們成爲線性可分,再使用線性劃分的原理來判斷分類邊界。在高維空間中是一種線性劃分,而在原有的數據空間中,是一種非線性劃分。

CART樹

決策樹的分類方法，基於最小距離的基尼指數估計函數，用來決定由該子數據集生成的決策樹的拓展形。

若是目標變量是標稱的，稱爲分類樹；若是目標變量是連續的，稱爲迴歸樹。

優勢：

很是靈活，能夠容許有部分錯分紅本，還可指定先驗機率分佈，可以使用自動的成本複雜性剪枝來獲得概括性更強的樹。
面對存在缺失值、變量數多等問題時，CART數顯得很是穩健。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。