常見的機器學習算法html
如下是最經常使用的機器學習算法,大部分數據問題均可以經過它們解決:算法
1.線性迴歸 (Linear Regression)dom
2.邏輯迴歸 (Logistic Regression)機器學習
3.決策樹 (Decision Tree)函數
4.支持向量機(SVM)學習
5.樸素貝葉斯 (Naive Bayes)測試
6.K鄰近算法(KNN)優化
7.K-均值算法(K-means)spa
8.隨機森林 (Random Forest)rest
9.下降維度算法(DimensionalityReduction Algorithms)
10.GradientBoost和Adaboost算法
線性迴歸是利用數理統計中迴歸分析,來肯定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分普遍。其表達形式爲y = w'x+e,e爲偏差服從均值爲0的正態分佈。
最小二乘法是一種計算線性迴歸的方法。你能夠把線性迴歸當作在一系列的點中畫一條合適的直線的任務。有不少種方法能夠實現這個,「最小二乘法」是這樣作的 —你畫一條線,而後爲每一個數據點測量點與線之間的垂直距離,並將這些所有相加,最終獲得的擬合線將在這個相加的總距離上儘量最小。
邏輯迴歸 (Logistic Regression) 邏輯迴歸是一種強大的統計方法,它能建模出一個二項結果與一個(或多個)解釋變量。它經過估算使用邏輯運算的機率,測量分類依賴變量和一個(或多個)**的變量之間的關係,這是累積的邏輯分佈狀況。
總的來講,邏輯迴歸能夠用於如下幾個真實應用場景:
信用評分
測量營銷活動的成功率
預測某一產品的收入
特定某一天是否會發生地震
是一種基本的分類與迴歸方法,此處主要討論分類的決策樹。在分類問題中,表示基於特徵對實例進行分類的過程,能夠認爲是if-then的集合,也能夠認爲是定義在特徵空間與類空間上的條件機率分佈。
決策樹一般有三個步驟:特徵選擇、決策樹的生成、決策樹的修剪。
用決策樹分類:從根節點開始,對實例的某一特徵進行測試,根據測試結果將實例分配到其子節點,此時每一個子節點對應着該特徵的一個取值,如此遞歸的對實例進行測試並分配,直到到達葉節點,最後將實例分到葉節點的類中。
下圖爲決策樹示意圖,圓點——內部節點,方框——葉節點
決策樹原理和問答猜想結果遊戲類似,根據一系列數據,而後給出遊戲的答案。
上圖爲一個決策樹流程圖,正方形表明判斷模塊,橢圓表明終止模塊,表示已經得出結論,能夠終止運行,左右箭頭叫作分支。決策樹的優點在於數據形式很是容易理解。
SVM有不少實現,可是本章只關注其中最流行的一種實現,即序列最小優化,在此以後,將介紹如何使用一種稱爲核函數(kernel)的方式將SVM擴展到更多數據集上。
支持向量機是一種二類分類算法,假設一個平面能夠將全部的樣本分爲兩類,位於正側的樣本爲一類,值爲+1,而位於負一側的樣本爲另一類,值爲-1。雖然SVM自己是一個二類分類器,若要解決多類問題,須要修改SVM。
咱們說分類,不只僅是將不一樣的類別樣本分隔開,還要以比較大的置信度來分隔這些樣本,這樣才能使絕大部分樣本被分開。好比,咱們想經過一個平面將兩個類別的樣本分開,若是這些樣本是線性可分(或者近視線性可分),那麼這樣的平面有不少,可是若是咱們加上要以最大的置信度來將這些樣本分開,那麼這樣的平面只有一條。
1.幾何間隔
幾何間隔的概念,簡單理解就是樣本點到分隔平面的距離
2 間隔最大化
想要間隔最大化,咱們必須找到距離分隔平面最近的點,而且使得距離平面最近的點儘量的距離平面最遠,這樣,每個樣本就都可以以比較大的置信度被分隔開算法的分類預測能力也就越好 。顯然,SVM算法的關鍵所在,就是找到使得間隔最大化的分隔超平面(若是特徵是高維度的狀況,咱們稱這樣的平面爲超平面)。簡言之:最大化支持向量到超平面距離
優勢:泛化錯誤率低,計算開銷不大,結果易解釋。 缺點:對參數調節和核函數的選擇敏感,原始分類器不加修改僅適用於處理二類問題。 適用數據類型:數值型和標稱型數據。
樸素貝葉斯分類是一種十分簡單的分類算法,叫它樸素貝葉斯分類是由於這種方法的思想真的很樸素,樸素貝葉斯的思想基礎是這樣的:對於給出的待分類項,求解在此項出現的條件下各個類別出現的機率,哪一個最大,就認爲此待分類項屬於哪一個類別。
優勢:在數據較少的狀況下仍然有效,能夠處理多類別問題。 缺點:對於輸入數據的準備方式較爲敏感。 適用數據類型:標稱型數據
它的現實使用例子有:
將一封電子郵件標記(或者不標記)爲垃圾郵件
將一篇新的文章歸類到科技、**或者運動
檢查一段文本表達的是積極情緒仍是消極情緒
臉部識別軟件
相關推薦: