成爲頂尖機器學習算法專家須要知道哪些算法?

成爲頂尖機器學習算法專家須要知道哪些算法?

摘要:頂尖的機器學習專家須要的算法,要不要?算法

機器學習算法簡介

有兩種方法能夠對你如今遇到的全部機器學習算法進行分類。數據庫

  • 第一種算法分組是學習風格的。
  • 第二種算法分組是經過形式或功能類似。

一般,這兩種方法都能歸納所有的算法。可是,咱們將重點關注經過類似性對算法進行分組。網絡


經過學習風格分組的機器學習算法

算法能夠經過不一樣的方式對問題進行建模,可是,不管咱們想要什麼結果都須要數據。此外,算法在機器學習和人工智能中很流行。讓咱們來看看機器學習算法中的三種不一樣學習方式:app

1. 監督學習

基本上,在監督機器學習中,輸入數據被稱爲訓練數據,而且具備已知的標籤或結果,例如垃圾郵件/非垃圾郵件或股票價格。在此,經過訓練過程當中準備模型。此外,還須要作出預測。而且在這些預測錯誤時予以糾正。訓練過程一直持續到模型達到所需水平。機器學習

示例問題:分類和迴歸。函數

示例算法:邏輯迴歸和反向傳播神經網絡。性能

2. 無監督學習

在無監督機器學習中,輸入數據未標記且沒有已知結果。咱們必須經過推導輸入數據中存在的結構來準備模型。這多是提取通常規則,可是咱們能夠經過數學過程來減小冗餘。學習

示例問題:聚類,降維和關聯規則學習。測試

示例算法:Apriori算法和k-Means。阿里雲

3. 半監督學習

輸入數據是標記和未標記示例的混合。存在指望的預測問題,但該模型必須學習組織數據以及進行預測的結構。

示例問題:分類和迴歸。

示例算法:其餘靈活方法的擴展。

由功能的類似性分組的算法

ML算法一般根據其功能的類似性進行分組。例如,基於樹的方法以及神經網絡的方法。可是,仍有算法能夠輕鬆適應多個類別。如學習矢量量化,這是一個神經網絡方法和基於實例的方法。

4. 迴歸算法

迴歸算法涉及對變量之間的關係進行建模,咱們在使用模型進行的預測中產生的錯誤度量來改進。

這些方法是數據統計的主力,此外,它們也已被選入統計機器學習。最流行的迴歸算法是:

  • 普通最小二乘迴歸(OLSR);
  • 線性迴歸;
  • Logistic迴歸;
  • 逐步迴歸;
  • 多元自適應迴歸樣條(MARS);
  • 局部估計的散點圖平滑(LOESS);
5. 基於實例的算法

該類算法是解決實例訓練數據的決策問題。這些方法構建了示例數據的數據庫,它須要將新數據與數據庫進行比較。爲了比較,咱們使用類似性度量來找到最佳匹配並進行預測。出於這個緣由,基於實例的方法也稱爲贏者通吃方法和基於記憶的學習,重點放在存儲實例的表示上。所以,在實例之間使用類似性度量。最流行的基於實例的算法是:

  • k-最近鄰(kNN);
  • 學習矢量量化(LVQ);
  • 自組織特徵映射(SOM);
  • 本地加權學習(LWL);
6. 正則化算法

我在這裏列出了正則化算法,由於它們很流行,功能強大。而且一般對其餘方法進行簡單的修改,最流行的正則化算法是:

  • 嶺迴歸;
  • 最小絕對收縮和選擇算子(LASSO);
  • 彈性網迴歸;
  • 最小角迴歸(LARS);
7. 決策樹算法

這些方法適用於貝葉斯定理的問題,如分類和迴歸。最流行的貝葉斯算法是:

  • 樸素貝葉斯;
  • 高斯樸素貝葉斯;
  • 多項樸素貝葉斯;
  • 平均一依賴估計量(AODE);
  • 貝葉斯信念網絡(BBN);
  • 貝葉斯網絡(BN);
8. 聚類算法

幾乎全部的聚類算法都涉及使用數據中的固有結構,這須要將數據最佳地組織成最大共性的組。最流行的聚類算法是:

  • K-均值;
  • K-平均;
  • 指望最大化(EM);
  • 分層聚類;
9. 關聯規則學習算法

關聯規則學習方法提取規則,它能夠完美的解釋數據中變量之間的關係。這些規則能夠在大型多維數據集中被發現是很是重要的。最流行的關聯規則學習算法是:

  • Apriori算法;
  • Eclat算法;
10. 人工神經網絡算法

這些算法模型大多受到生物神經網絡結構的啓發。它們能夠是一類模式匹配,能夠被用於迴歸和分類問題。它擁有一個巨大的子領域,由於它擁有數百種算法和變體。最流行的人工神經網絡算法是:

  • 感知機;
  • 反向傳播;
  • Hopfield神經網絡;
  • 徑向基函數神經網絡(RBFN)
11. 深度學習算法

深度學習算法是人工神經網絡的更新。他們更關心構建更大更復雜的神經網絡。最流行的深度學習算法是:

  • 深玻爾茲曼機(DBM);
  • 深信仰網絡(DBN);
  • 卷積神經網絡(CNN);
  • 堆疊式自動編碼器;
12. 降維算法

與聚類方法同樣,維數減小也是爲了尋求數據的固有結構。一般,可視化維度數據是很是有用的。此外,咱們能夠在監督學習方法中使用它。

  • 主成分分析(PCA);
  • 主成分迴歸(PCR);
  • 偏最小二乘迴歸(PLSR);
  • Sammon Mapping;
  • 多維縮放(MDS);
  • 投影追蹤;
  • 線性判別分析(LDA);
  • 高斯混合判別分析(MDA);
  • 二次判別分析(QDA);
  • 費舍爾判別分析(FDA);
經常使用機器學習算法列表

樸素貝葉斯分類器機器學習算法

一般,網頁、文檔和電子郵件進行分類將是困難且不可能的。這就是樸素貝葉斯分類器機器學習算法的用武之地。分類器實際上是一個分配整體元素值的函數。例如,垃圾郵件過濾是樸素貝葉斯算法的一種流行應用。所以,垃圾郵件過濾器是一種分類器,可爲全部電子郵件分配標籤「垃圾郵件」或「非垃圾郵件」。基本上,它是按照類似性分組的最流行的學習方法之一。這適用於流行的貝葉斯機率定理。

K-means:聚類機器學習算法

一般,K-means是用於聚類分析的無監督機器學習算法。此外,K-Means是一種非肯定性和迭代方法,該算法經過預約數量的簇k對給定數據集進行操做。所以,K-Means算法的輸出是具備在簇之間分離的輸入數據的k個簇。

支持向量機學習算法

基本上,它是用於分類或迴歸問題的監督機器學習算法。SVM從數據集學習,這樣SVM就能夠對任何新數據進行分類。此外,它的工做原理是經過查找將數據分類到不一樣的類中。咱們用它來將訓練數據集分紅幾類。並且,有許多這樣的線性超平面,SVM試圖最大化各類類之間的距離,這被稱爲邊際最大化。

SVM分爲兩類:

  1. 線性SVM:在線性SVM中,訓練數據必須經過超平面分離分類器。
  2. 非線性SVM:在非線性SVM中,不可能使用超平面分離訓練數據。
Apriori機器學習算法

這是一種無監督的機器學習算法。咱們用來從給定的數據集生成關聯規則。關聯規則意味着若是發生項目A,則項目B也以必定機率發生,生成的大多數關聯規則都是IF_THEN格式。例如,若是人們購買iPad,那麼他們也會購買iPad保護套來保護它。Apriori機器學習算法工做的基本原理:若是項目集頻繁出現,則項目集的全部子集也常常出現。

線性迴歸機器學習算法

它顯示了2個變量之間的關係,它顯示了一個變量的變化如何影響另外一個變量。

決策樹機器學習算法

決策樹是圖形表示,它利用分支方法來舉例說明決策的全部可能結果。在決策樹中,內部節點表示對屬性的測試。由於樹的每一個分支表明測試的結果,而且葉節點表示特定的類標籤,即在計算全部屬性後作出的決定。此外,咱們必須經過從根節點到葉節點的路徑來表示分類。

隨機森林機器學習算法

它是首選的機器學習算法。咱們使用套袋方法建立一堆具備隨機數據子集的決策樹。咱們必須在數據集的隨機樣本上屢次訓練模型,由於咱們須要從隨機森林算法中得到良好的預測性能。此外,在這種集成學習方法中,咱們必須組合全部決策樹的輸出,作出最後的預測。此外,咱們經過輪詢每一個決策樹的結果來推導出最終預測。

Logistic迴歸機器學習算法

這個算法的名稱可能有點使人困惑,Logistic迴歸算法用於分類任務而不是迴歸問題。此外,這裏的名稱「迴歸」意味着線性模型適合於特徵空間。該算法將邏輯函數應用於特徵的線性組合,這須要預測分類因變量的結果。

結論

咱們研究了機器學習算法,並瞭解了機器學習算法的分類:迴歸算法、基於實例的算法、正則化算法、決策樹算法、貝葉斯算法、聚類算法、關聯規則學習算法、人工神經網絡算法、深度學習算法、降維算法、集成算法、監督學習、無監督學習、半監督學習、樸素貝葉斯分類器算法、K-means聚類算法、支持向量機算法、Apriori算法、線性迴歸和Logistic迴歸。熟悉這類算法獎有助你成爲機器學習領域的專家!

  • 本文由阿里云云棲社區組織翻譯。
  • 文章原標題《top-machine-learning-algorithm-you-should-know-to》
  • 做者:Rinu Gour 譯者:虎說八道,審校:。
相關文章
相關標籤/搜索