機器學習實戰總結

本博客主要摘錄了《機器學習實戰》裏面對各個算法的總結算法

K-近鄰算法

優勢

精度高、對異常值不敏感、無數據輸入假定機器學習

缺點

計算複雜度高、空間複雜度高函數

適用範圍

數值型和標稱型性能

決策樹

優勢

計算複雜度不高,輸出結果易於理解,對中間值的缺失不敏感,能夠處理不相關特徵數據學習

缺點

可能會產生過分匹配的問題大數據

適用範圍

數值型和標稱型編碼

樸素貝葉斯

優勢

在數據較少的狀況下仍然有效,能夠處理多類別問題博客

缺點

對於輸入數據的準備方式比較敏感io

適用範圍

標稱型數據map

邏輯迴歸

優勢

計算代價不高,容易理解和實現

缺點

容易欠擬合,分類精度可能不高

適用範圍

數值型和標稱型數據

支持向量機

優勢

泛化錯誤率低,計算開銷不大,容易解釋

缺點

對參數調節和核函數的選擇敏感,原始分類器不加修飾僅適用於處理二類問題

適用範圍

數值型和標稱型數據

AdaBoost

優勢

泛化錯誤率低,易編碼,能夠應用在大部分分類器上,無參數調整

缺點

對離羣點敏感

適用範圍

數值型和標稱型數據

線性迴歸

優勢

結果易於理解,計算上不復雜

缺點

對非線性的數據擬合很差

適用範圍

數值型和標稱型數據

樹迴歸

優勢

能夠對複雜和非線性的數據建模

缺點

結果不易理解

適用範圍

數值型和標稱型數據

K-均值

優勢

容易實現

缺點

可能收斂到局部最小值,在大規模數據集上收斂較慢

適用範圍

數值型數據

Apriori算法

優勢

易編碼實現

缺點

在大數據集上可能較慢

適用範圍

數值型和標稱型數據

FP-growth算法

優勢

通常要快於Apriori

缺點

實現比較困難,在某些數據集上性能會降低

適用範圍

標稱型數據

PCA

優勢

下降數據的複雜性,識別最重要的多個特徵

缺點

不必定須要,且可能損失有用信息

適用範圍

數值型數據

SVD

優勢

簡化數據,去除噪聲,提升算法結果

缺點

數據的轉換可能難以理解

適用範圍

數值型數據

MapReduce

優勢

可在短期內完成大量工做

缺點

算法必須通過重寫,須要對系統工程有必定的理解

適用範圍

數值型和標稱型數據

相關文章
相關標籤/搜索