摘要:頂尖的機器學習專家須要的算法,要不要?算法
有兩種方法能夠對你如今遇到的全部機器學習算法進行分類。數據庫
一般,這兩種方法都能歸納所有的算法。可是,咱們將重點關注經過類似性對算法進行分組。網絡
算法能夠經過不一樣的方式對問題進行建模,可是,不管咱們想要什麼結果都須要數據。此外,算法在機器學習和人工智能中很流行。讓咱們來看看機器學習算法中的三種不一樣學習方式:app
基本上,在監督機器學習中,輸入數據被稱爲訓練數據,而且具備已知的標籤或結果,例如垃圾郵件/非垃圾郵件或股票價格。在此,經過訓練過程當中準備模型。此外,還須要作出預測。而且在這些預測錯誤時予以糾正。訓練過程一直持續到模型達到所需水平。機器學習
示例問題:分類和迴歸。函數
示例算法:邏輯迴歸和反向傳播神經網絡。性能
在無監督機器學習中,輸入數據未標記且沒有已知結果。咱們必須經過推導輸入數據中存在的結構來準備模型。這多是提取通常規則,可是咱們能夠經過數學過程來減小冗餘。學習
示例問題:聚類,降維和關聯規則學習。測試
示例算法:Apriori算法和k-Means。阿里雲
輸入數據是標記和未標記示例的混合。存在指望的預測問題,但該模型必須學習組織數據以及進行預測的結構。
示例問題:分類和迴歸。
示例算法:其餘靈活方法的擴展。
由功能的類似性分組的算法
ML算法一般根據其功能的類似性進行分組。例如,基於樹的方法以及神經網絡的方法。可是,仍有算法能夠輕鬆適應多個類別。如學習矢量量化,這是一個神經網絡方法和基於實例的方法。
迴歸算法涉及對變量之間的關係進行建模,咱們在使用模型進行的預測中產生的錯誤度量來改進。
這些方法是數據統計的主力,此外,它們也已被選入統計機器學習。最流行的迴歸算法是:
該類算法是解決實例訓練數據的決策問題。這些方法構建了示例數據的數據庫,它須要將新數據與數據庫進行比較。爲了比較,咱們使用類似性度量來找到最佳匹配並進行預測。出於這個緣由,基於實例的方法也稱爲贏者通吃方法和基於記憶的學習,重點放在存儲實例的表示上。所以,在實例之間使用類似性度量。最流行的基於實例的算法是:
我在這裏列出了正則化算法,由於它們很流行,功能強大。而且一般對其餘方法進行簡單的修改,最流行的正則化算法是:
這些方法適用於貝葉斯定理的問題,如分類和迴歸。最流行的貝葉斯算法是:
幾乎全部的聚類算法都涉及使用數據中的固有結構,這須要將數據最佳地組織成最大共性的組。最流行的聚類算法是:
關聯規則學習方法提取規則,它能夠完美的解釋數據中變量之間的關係。這些規則能夠在大型多維數據集中被發現是很是重要的。最流行的關聯規則學習算法是:
這些算法模型大多受到生物神經網絡結構的啓發。它們能夠是一類模式匹配,能夠被用於迴歸和分類問題。它擁有一個巨大的子領域,由於它擁有數百種算法和變體。最流行的人工神經網絡算法是:
深度學習算法是人工神經網絡的更新。他們更關心構建更大更復雜的神經網絡。最流行的深度學習算法是:
與聚類方法同樣,維數減小也是爲了尋求數據的固有結構。一般,可視化維度數據是很是有用的。此外,咱們能夠在監督學習方法中使用它。
一般,網頁、文檔和電子郵件進行分類將是困難且不可能的。這就是樸素貝葉斯分類器機器學習算法的用武之地。分類器實際上是一個分配整體元素值的函數。例如,垃圾郵件過濾是樸素貝葉斯算法的一種流行應用。所以,垃圾郵件過濾器是一種分類器,可爲全部電子郵件分配標籤「垃圾郵件」或「非垃圾郵件」。基本上,它是按照類似性分組的最流行的學習方法之一。這適用於流行的貝葉斯機率定理。
一般,K-means是用於聚類分析的無監督機器學習算法。此外,K-Means是一種非肯定性和迭代方法,該算法經過預約數量的簇k對給定數據集進行操做。所以,K-Means算法的輸出是具備在簇之間分離的輸入數據的k個簇。
基本上,它是用於分類或迴歸問題的監督機器學習算法。SVM從數據集學習,這樣SVM就能夠對任何新數據進行分類。此外,它的工做原理是經過查找將數據分類到不一樣的類中。咱們用它來將訓練數據集分紅幾類。並且,有許多這樣的線性超平面,SVM試圖最大化各類類之間的距離,這被稱爲邊際最大化。
SVM分爲兩類:
這是一種無監督的機器學習算法。咱們用來從給定的數據集生成關聯規則。關聯規則意味着若是發生項目A,則項目B也以必定機率發生,生成的大多數關聯規則都是IF_THEN格式。例如,若是人們購買iPad,那麼他們也會購買iPad保護套來保護它。Apriori機器學習算法工做的基本原理:若是項目集頻繁出現,則項目集的全部子集也常常出現。
它顯示了2個變量之間的關係,它顯示了一個變量的變化如何影響另外一個變量。
決策樹是圖形表示,它利用分支方法來舉例說明決策的全部可能結果。在決策樹中,內部節點表示對屬性的測試。由於樹的每一個分支表明測試的結果,而且葉節點表示特定的類標籤,即在計算全部屬性後作出的決定。此外,咱們必須經過從根節點到葉節點的路徑來表示分類。
它是首選的機器學習算法。咱們使用套袋方法建立一堆具備隨機數據子集的決策樹。咱們必須在數據集的隨機樣本上屢次訓練模型,由於咱們須要從隨機森林算法中得到良好的預測性能。此外,在這種集成學習方法中,咱們必須組合全部決策樹的輸出,作出最後的預測。此外,咱們經過輪詢每一個決策樹的結果來推導出最終預測。
這個算法的名稱可能有點使人困惑,Logistic迴歸算法用於分類任務而不是迴歸問題。此外,這裏的名稱「迴歸」意味着線性模型適合於特徵空間。該算法將邏輯函數應用於特徵的線性組合,這須要預測分類因變量的結果。
咱們研究了機器學習算法,並瞭解了機器學習算法的分類:迴歸算法、基於實例的算法、正則化算法、決策樹算法、貝葉斯算法、聚類算法、關聯規則學習算法、人工神經網絡算法、深度學習算法、降維算法、集成算法、監督學習、無監督學習、半監督學習、樸素貝葉斯分類器算法、K-means聚類算法、支持向量機算法、Apriori算法、線性迴歸和Logistic迴歸。熟悉這類算法獎有助你成爲機器學習領域的專家!