機器學習十大算法

時間 2019-11-16

標籤機器學習十大算法简体版

原文原文鏈接

機器學習算法一般能夠被分爲三類---監督式學習、非監督式學習和強化學習算法

監督式學習主要用於一部分數據集（訓練數據）有某些能夠獲取的熟悉（標籤），但剩餘的樣本缺乏而且須要預測的場景。
非監督式學習：主要用於從未標註數據集中挖掘相互之間的隱含關係。
強化學習：介於二者之間—每一步預測或者行爲都或多或少有一些反饋信息，但沒有明確的標籤或者錯誤提示。

監督式學習數據庫

一、決策樹：網絡

決策樹是一種決策支持工具，它使用樹狀圖或者樹狀模型來表示決策過程以及後續獲得的結果，包括概論時間結果等。請觀察下圖來理解決策樹的結構。機器學習

從商業決策的角度來看，決策樹就是經過儘量少的是非判斷問題來預測決策正確的機率。這種方法能夠幫你用一種結構性的、系統性的方法來得出合理的結構。函數

二、樸素貝葉斯分類器工具

樸素貝葉斯分類器是一類基於貝葉斯理論的簡單的機率分類器，它假設特徵以前是相互獨立的。下圖所示的就是公式—P(A|B)表示後延機率，p(B|A)是似然值，p(A)是類別的先驗機率，p(B)表明預測器的先驗機率。學習

現實場景中的一些例子包括：優化

-檢測垃圾電子郵件編碼

-將新聞分爲科技、政治、體育等類別spa

-批判一段文字表達積極的情緒仍是消極的情緒

-用於人臉檢測軟件

三、最小平方迴歸

最小平方迴歸是求線性迴歸的一種方法。「最小平方「的策略至關於你畫一條直線，而後計算每一個點到直線的垂直距離，最後把各個距離求和；最佳擬合的直線就是距離和最小的那一條。

線性指的是用於擬合數據的數據，而最小平方指的是待優化的損失函數。

四、邏輯迴歸：

邏輯迴歸模型是一種強大的統計建模方式，它用一個或多個解釋性變量對二值輸出結果建模。它用邏輯斯蒂函數估計機率值，以此衡量分類依賴變量和一個或多個獨立的變量之間的關係，這屬於累計的邏輯斯蒂分佈。

一般來講，邏輯迴歸模型在現實場景中的應用包括：

信用評分
預測商業活動的成功機率
預測某款產品的收益
預測某一天發生地震的機率

五、支持向量機：

支持向量機是一種二分類算法。在N維空間中給定兩類點，支持向量機生成一個

（N-1）維的超平面將這些點分爲兩類。舉個例子，好比在紙上有兩類線性可分的點。支持向量機會尋找一條直線將這兩類點區分開來，而且與這些點的距離都儘量遠。

利用支持向量機（結合具體應用場景作了改進）解決的大規模問題包括展現廣告、人體結合部位識別、基於圖像的性別檢查、大規模圖像分類等。。。

六、集成方法：

集成方法是先構建一組分類器，而後用各個分類器帶權重的投票來預測新數據的算法。最初的集成方法是貝葉斯平均，但最新的算法包括偏差糾正輸出編碼和提高算法。

那麼集成模型的原理是什麼，以及它爲何比獨立模型的效果好呢？

它們消除了偏置的影響：好比把民主黨的問卷和共和黨的問卷混合，從中獲得的將是一個不三不四的偏中立的信息。
它們能減小預測的方差：多個模型聚合後的預測結果比單一模型的預測結果更穩定。在金融界，這被稱爲是多樣化---多個股票的混合產品波動老是遠小於單個股票的波動。這也解釋了爲什麼增長訓練數據，模型的效果會變得更好。
它們不容易產生過擬合：若是單個模型不會產生過擬合，那麼將每一個模型的預測結果簡單地組合（取均值、加權平均、邏輯迴歸），沒有理由產生過擬合。

非監督式學習

七、聚類算法

聚類算法就是將一堆數據進行處理，根據它們的類似性對數據進行聚類。

聚類算法有不少種，具體以下：中心聚類、關聯聚類、密度聚類、機率聚類、降維、神經網絡/深度學習

八、主成分分析（PCA）

主成分分析是利用正交變換將一些列可能相關數據轉換爲線性無關數據，從而找到主成分。PCA主要用於簡單學習與可視化中數據壓縮、簡化。可是PCA有必定的侷限性，它須要你擁有特定領域的相關知識。對噪音比較多的數據並不適用。

九、 SVD矩陣分解

SVD矩陣是一個複雜的實復負數矩陣，給定一個m行、n列的矩陣M，那麼M矩陣能夠分解爲M=UΣV。U和V是m * m階矩陣，Σ是半正定m * n階對角矩陣

十、獨立成分分析（ICA）

獨立成分分析是一種利用統計原理進行計算來揭示隨機變量、測量值或者信號背後的隱藏因素的方法。獨立成分分析算法給所觀察到的多變量數據定義了一個生成模型，一般這些變量是大批量的樣本。在該模型中，數據變量被假定爲一些未知的潛變量的線性混合，並且混合系統也未知。潛變量被假定是非高斯和相互獨立的，它們被稱爲所觀察到的數據的獨立份量。

獨立成分分析和主成分分析有關聯，但它是一個更強大的技術。它可以在這些經典方法失效時仍舊找到數據源的潛在因素。它的應用包括數字圖像，文檔數據庫，經濟指標和心理測量。