成爲頂尖機器學習算法專家須要知道哪些算法？

時間 2019-12-05

標籤成爲頂尖機器學習算法專家須要知道哪些简体版

原文原文鏈接

成爲頂尖機器學習算法專家須要知道哪些算法？

摘要：頂尖的機器學習專家須要的算法，要不要？算法

機器學習算法簡介

有兩種方法能夠對你如今遇到的全部機器學習算法進行分類。數據庫

第一種算法分組是學習風格的。
第二種算法分組是經過形式或功能類似。

一般，這兩種方法都能歸納所有的算法。可是，咱們將重點關注經過類似性對算法進行分組。網絡

經過學習風格分組的機器學習算法

算法能夠經過不一樣的方式對問題進行建模，可是，不管咱們想要什麼結果都須要數據。此外，算法在機器學習和人工智能中很流行。讓咱們來看看機器學習算法中的三種不一樣學習方式：app

1. 監督學習

基本上，在監督機器學習中，輸入數據被稱爲訓練數據，而且具備已知的標籤或結果，例如垃圾郵件/非垃圾郵件或股票價格。在此，經過訓練過程當中準備模型。此外，還須要作出預測。而且在這些預測錯誤時予以糾正。訓練過程一直持續到模型達到所需水平。機器學習

示例問題：分類和迴歸。函數

示例算法：邏輯迴歸和反向傳播神經網絡。性能

2. 無監督學習

在無監督機器學習中，輸入數據未標記且沒有已知結果。咱們必須經過推導輸入數據中存在的結構來準備模型。這多是提取通常規則，可是咱們能夠經過數學過程來減小冗餘。學習

示例問題：聚類，降維和關聯規則學習。測試

示例算法：Apriori算法和k-Means。阿里雲

3. 半監督學習

輸入數據是標記和未標記示例的混合。存在指望的預測問題，但該模型必須學習組織數據以及進行預測的結構。

示例問題：分類和迴歸。

示例算法：其餘靈活方法的擴展。

由功能的類似性分組的算法

ML算法一般根據其功能的類似性進行分組。例如，基於樹的方法以及神經網絡的方法。可是，仍有算法能夠輕鬆適應多個類別。如學習矢量量化，這是一個神經網絡方法和基於實例的方法。

4. 迴歸算法

迴歸算法涉及對變量之間的關係進行建模，咱們在使用模型進行的預測中產生的錯誤度量來改進。

這些方法是數據統計的主力，此外，它們也已被選入統計機器學習。最流行的迴歸算法是：

普通最小二乘迴歸（OLSR）；
線性迴歸；
Logistic迴歸；
逐步迴歸；
多元自適應迴歸樣條（MARS）；
局部估計的散點圖平滑（LOESS）；

5. 基於實例的算法

該類算法是解決實例訓練數據的決策問題。這些方法構建了示例數據的數據庫，它須要將新數據與數據庫進行比較。爲了比較，咱們使用類似性度量來找到最佳匹配並進行預測。出於這個緣由，基於實例的方法也稱爲贏者通吃方法和基於記憶的學習，重點放在存儲實例的表示上。所以，在實例之間使用類似性度量。最流行的基於實例的算法是：

k-最近鄰（kNN）；
學習矢量量化（LVQ）；
自組織特徵映射（SOM）；
本地加權學習（LWL）；

6. 正則化算法

我在這裏列出了正則化算法，由於它們很流行，功能強大。而且一般對其餘方法進行簡單的修改，最流行的正則化算法是：

嶺迴歸；
最小絕對收縮和選擇算子（LASSO）；
彈性網迴歸；
最小角迴歸（LARS）；

7. 決策樹算法

這些方法適用於貝葉斯定理的問題，如分類和迴歸。最流行的貝葉斯算法是：

樸素貝葉斯；
高斯樸素貝葉斯；
多項樸素貝葉斯；
平均一依賴估計量（AODE）；
貝葉斯信念網絡（BBN）；
貝葉斯網絡（BN）；

8. 聚類算法

幾乎全部的聚類算法都涉及使用數據中的固有結構，這須要將數據最佳地組織成最大共性的組。最流行的聚類算法是：

K-均值；
K-平均；
指望最大化（EM）；
分層聚類；

9. 關聯規則學習算法

關聯規則學習方法提取規則，它能夠完美的解釋數據中變量之間的關係。這些規則能夠在大型多維數據集中被發現是很是重要的。最流行的關聯規則學習算法是：

Apriori算法；
Eclat算法；

10. 人工神經網絡算法

這些算法模型大多受到生物神經網絡結構的啓發。它們能夠是一類模式匹配，能夠被用於迴歸和分類問題。它擁有一個巨大的子領域，由於它擁有數百種算法和變體。最流行的人工神經網絡算法是：

感知機；
反向傳播；
Hopfield神經網絡；
徑向基函數神經網絡（RBFN）

11. 深度學習算法

深度學習算法是人工神經網絡的更新。他們更關心構建更大更復雜的神經網絡。最流行的深度學習算法是：

深玻爾茲曼機（DBM）；
深信仰網絡（DBN）；
卷積神經網絡（CNN）；
堆疊式自動編碼器；

12. 降維算法

與聚類方法同樣，維數減小也是爲了尋求數據的固有結構。一般，可視化維度數據是很是有用的。此外，咱們能夠在監督學習方法中使用它。

主成分分析（PCA）；
主成分迴歸（PCR）；
偏最小二乘迴歸（PLSR）；
Sammon Mapping；
多維縮放（MDS）；
投影追蹤；
線性判別分析（LDA）；
高斯混合判別分析（MDA）；
二次判別分析（QDA）；
費舍爾判別分析（FDA）；

經常使用機器學習算法列表

樸素貝葉斯分類器機器學習算法

一般，網頁、文檔和電子郵件進行分類將是困難且不可能的。這就是樸素貝葉斯分類器機器學習算法的用武之地。分類器實際上是一個分配整體元素值的函數。例如，垃圾郵件過濾是樸素貝葉斯算法的一種流行應用。所以，垃圾郵件過濾器是一種分類器，可爲全部電子郵件分配標籤「垃圾郵件」或「非垃圾郵件」。基本上，它是按照類似性分組的最流行的學習方法之一。這適用於流行的貝葉斯機率定理。

K-means：聚類機器學習算法

一般，K-means是用於聚類分析的無監督機器學習算法。此外，K-Means是一種非肯定性和迭代方法，該算法經過預約數量的簇k對給定數據集進行操做。所以，K-Means算法的輸出是具備在簇之間分離的輸入數據的k個簇。

支持向量機學習算法

基本上，它是用於分類或迴歸問題的監督機器學習算法。SVM從數據集學習，這樣SVM就能夠對任何新數據進行分類。此外，它的工做原理是經過查找將數據分類到不一樣的類中。咱們用它來將訓練數據集分紅幾類。並且，有許多這樣的線性超平面，SVM試圖最大化各類類之間的距離，這被稱爲邊際最大化。

SVM分爲兩類：

線性SVM：在線性SVM中，訓練數據必須經過超平面分離分類器。
非線性SVM：在非線性SVM中，不可能使用超平面分離訓練數據。

Apriori機器學習算法

這是一種無監督的機器學習算法。咱們用來從給定的數據集生成關聯規則。關聯規則意味着若是發生項目A，則項目B也以必定機率發生，生成的大多數關聯規則都是IF_THEN格式。例如，若是人們購買iPad，那麼他們也會購買iPad保護套來保護它。Apriori機器學習算法工做的基本原理：若是項目集頻繁出現，則項目集的全部子集也常常出現。

線性迴歸機器學習算法

它顯示了2個變量之間的關係，它顯示了一個變量的變化如何影響另外一個變量。

決策樹機器學習算法

決策樹是圖形表示，它利用分支方法來舉例說明決策的全部可能結果。在決策樹中，內部節點表示對屬性的測試。由於樹的每一個分支表明測試的結果，而且葉節點表示特定的類標籤，即在計算全部屬性後作出的決定。此外，咱們必須經過從根節點到葉節點的路徑來表示分類。

隨機森林機器學習算法

它是首選的機器學習算法。咱們使用套袋方法建立一堆具備隨機數據子集的決策樹。咱們必須在數據集的隨機樣本上屢次訓練模型，由於咱們須要從隨機森林算法中得到良好的預測性能。此外，在這種集成學習方法中，咱們必須組合全部決策樹的輸出，作出最後的預測。此外，咱們經過輪詢每一個決策樹的結果來推導出最終預測。

Logistic迴歸機器學習算法

這個算法的名稱可能有點使人困惑，Logistic迴歸算法用於分類任務而不是迴歸問題。此外，這裏的名稱「迴歸」意味着線性模型適合於特徵空間。該算法將邏輯函數應用於特徵的線性組合，這須要預測分類因變量的結果。

結論

咱們研究了機器學習算法，並瞭解了機器學習算法的分類：迴歸算法、基於實例的算法、正則化算法、決策樹算法、貝葉斯算法、聚類算法、關聯規則學習算法、人工神經網絡算法、深度學習算法、降維算法、集成算法、監督學習、無監督學習、半監督學習、樸素貝葉斯分類器算法、K-means聚類算法、支持向量機算法、Apriori算法、線性迴歸和Logistic迴歸。熟悉這類算法獎有助你成爲機器學習領域的專家！