6分鐘瞭解全部機器學習模型

Alt

Alt

全部機器學習模型均可以分爲有監督的或無監督的。若是模型是監督模型,則將其再分類爲迴歸模型或分類模型。咱們將介紹這些術語的含義以及下面每一個類別中對應的模型。算法

Alt

監督學習模型

監督學習涉及基於示例輸入-輸出對學習將輸入映射到輸出的功能。網絡

例如,若是我有一個包含兩個變量的數據集,即年齡(輸入)和身高(輸出),那麼我能夠實現一個監督學習模型,以根據一我的的年齡預測其身高。app

Alt
監督學習示例機器學習

重申一下,在監督學習中,有兩個子類別:迴歸和分類。函數

迴歸模型學習

在迴歸模型中,輸出是連續的。如下是一些最多見的迴歸模型類型。spa

-線性迴歸3d

Alt
線性迴歸示例blog

線性迴歸的概念就是簡單地找到一條最適合數據的直線。線性迴歸的擴展包括多元線性迴歸(例如,找到最佳擬合的平面)和多項式迴歸(例如,找到最佳擬合的曲線)。圖片

-決策樹
Alt
圖片來自Kaggle

決策樹是一種廣泛應用的模型,經常使用於運籌學、戰略計劃和機器學習。上方的每一個正方形稱爲一個節點,你擁有的節點越多,決策樹(一般)將越準確。作出決策的決策樹的最後節點稱爲樹的葉子。決策樹直觀且易於構建,但在準確性方面稍有不足。

-隨機森林

隨機森林是一種基於決策樹的總體學習技術。隨機森林涉及使用原始數據經過「自舉法」(Bootstrapping)獲得的數據集建立多個決策樹,並在決策樹的每一個步驟中隨機選擇變量的子集。而後,模型選擇每一個決策樹的全部預測的模式。這有什麼意義呢?經過依靠「多數決定」模型( ‘Majority Wins’ Model),它下降了單個樹出錯的風險。

Alt
如上圖所示,若是咱們只建立一個決策樹,那麼第三個決策樹,它的預測值將是0。可是,若是咱們依靠全部4個決策樹的模式,則預測值爲1。這就是隨機森林的力量。

-神經網絡
Alt
神經網絡的視覺表示

神經網絡是一種受人腦啓發的多層模型。就像咱們大腦中的神經元同樣,上面的圓圈表明一個節點。藍色的圓圈表明輸入層,黑色的圓圈表明隱藏層,綠色的圓圈表明輸出層。隱藏層中的每一個節點表明特定輸入的一個函數,最終生成綠色圓圈中的輸出。

分類模型

在分類模型中,輸出是離散的。如下是一些最多見的分類模型類型。

-邏輯迴歸

邏輯迴歸相似於線性迴歸,但用於模擬有限數量結果的機率,一般是兩個。在對結果的機率建模時,使用邏輯迴歸而不是線性迴歸的緣由有不少(詳情可查看:https://stackoverflow.com/questions/12146914/what-is-the-difference-between-linear-regression-and-logistic-regression)。本質上,是以輸出值只能在0到1之間(見下圖)的方式建立邏輯方程。

Alt
-支持向量機

支持向量機是一種監督分類技術,實際使用上這種方法可能會很是複雜,但在最基本的級別上卻很是直觀。

假設有兩類數據。支持向量機將在兩類數據之間找到一個超平面或邊界,以使兩類數據之間的餘量最大化(參考下圖)。有許多平面能夠將兩個類別分開,可是隻有一個平面可使兩個類別之間的邊距或距離最大化。

Alt

-樸素貝葉斯

樸素貝葉斯(Naive Bayes)是數據科學中另外一個通用的分類器。它背後的思想是由貝葉斯定理驅動的:

Alt

儘管對樸素貝葉斯(Naive Bayes)作出了許多看起來不太實際的假設(所以將其稱爲」Naive「),但事實證實,它在大多數狀況下都是可執行的,而且構建起來也相對較快。

若是您想了解更多有關它們的信息,詳情可參見:https://towardsdatascience.com/naive-bayes-classifier-81d512f50a7c

決策樹,隨機森林,神經網絡……這些模型遵循與先前解釋相同的邏輯。惟一的區別是其輸出是離散的而不是連續的。

無監督學習模型

與監督學習不一樣的是,無監督學習被用來從輸入數據中推斷和發現模式,而不須要參考標記的結果。無監督學習的兩種主要方法是聚類和降維。

Alt

聚類模型

Alt
圖片來自GeeksforGeeks

聚類是一種無監督學習的技術,它涉及對數據點的分組或聚類。一般用於客戶細分、欺詐檢測和文檔分類等場景。

常見的聚類技術包括k均值聚類、分層聚類、均值漂移聚類和基於密度的聚類。儘管每種技術在尋找聚類時都有不一樣的方法,但它們都旨在實現同一目標。

降維模型

降維是經過獲取一組主變量來減小所考慮的隨機變量數量的過程[2]。簡單地說,就是減小特性集的維數的過程(更簡單地說,就是減小數據集中的特徵數量)。大多數降維技術能夠分爲特徵消除技術和特徵提取技術。

主成分分析模型(PCA)

從最簡單的意義上講,PCA涉及將較高維度的數據(例如3維)投影到較小的空間(例如2維)。這樣會致使數據維度較低(2維而不是3維),同時將全部原始變量保留在模型中。

結論

固然,若是你想要深刻學習和了解某種特定模型,都將面臨更多的複雜問題,但對每一種機器學習算法的工做原理有一個基本的瞭解,對你的研究必定會有所幫助。

*參考文獻:[1] Stuart J. Russell, Peter Norvig, Artificial Intelligence: A Modern Approach (2010), Prentice Hall
[2] Roweis, S. T., Saul, L. K., Nonlinear Dimensionality Reduction by Locally Linear Embedding (2000), Science*

原文連接:https://towardsdatascience.com/all-machine-learning-models-explained-in-6-minutes-9fe30ff6776a

歡迎點擊「京東智聯雲」瞭解更多精彩內容!

Alt

以上信息來源於網絡,由「京東智聯雲開發者」公衆號編輯整理,不表明京東智聯雲立場。

Alt

相關文章
相關標籤/搜索