《從機器學習到深度學習》筆記(1)有監督學習

有監督學習(Supervised Learning)是指這樣的一種場景:算法

有一組數量較多的歷史樣本集,其中每一個樣本有一組特徵(features)和一個或幾個標示其自身的類型或數值的標籤(label);對歷史樣本學習獲得模型後,能夠用新樣本的特徵預測其對應的標籤。網絡

1. 場景dom

在有監督學習中能夠將每條數據當作是一條由特徵到標籤的映射,訓練的目的是找出映射的規律。根據標籤的類型能夠將有監督學習再分爲兩個子類:機器學習

分類(Classification):標籤是可數的離散類型,好比疾病診斷(疾病的類型有限)、圖像文字識別(文字的總量有限)。
迴歸(Regression):標籤是不可數的連續類型、有大小關係,好比房價預測(值沒法枚舉)。
圖1-8是一個胸科診斷的分類案例。函數

 

圖1-8 分類學習示例工具

圖1-8中的年齡、血液PH值、是否吸菸就是模型的特徵,診斷結果(肺氣腫/正常)是學習的標籤。學習

注意:圖1-8中分類問題的特徵變量也能夠是連續類型(年齡、PH值)。優化

2. 算法spa

有監督學習是機器學習中最易理解、發展最成熟的一個領域,其應用最普遍算法能夠分紅如下幾類:3d

線性分析(Linear Analysis):來源於統計學,這其中衆所周知的最小二乘法(Ordinary Least Squares,OLS)是優化目標最易理解的迴歸學習算法;經過對優化目標的調整還衍生了Ridge Regression、Lasso Regression等算法。此外還包括線性判別分析(Linear Discriminant Analysis)。


梯度降低法(Gradient Descent):用於尋找函數最小值或最大值問題。主要包括三個分支:批量梯度降低法BGD、隨機梯度降低法SGD、小批量梯度降低法MBGD。


樸素貝葉斯(Naïve Bayes):基於機率論的分類方法。在貝葉斯理論中,該方法要求全部特徵之間相互獨立,但2004年Harry Zhang的論文《The Optimality of Naive Bayes》中闡述了特徵之間有比較平和的關聯時樸素貝葉斯也能達到很好效果。


決策樹(Decision Tree):源自風險管理的輔助決策系統,是一個利用樹狀模型的決策支持工具,根據其建分支的策略不一樣派生了不少子算法,如ID三、C4.五、CART等。其優勢是學習結果易於人類理解,缺點是當數據集變化時決策圖變化較大。
支持向量機(Support Vector Machine,SVM):上世紀六十年代就被提出,直到1992由Bernhard E.Boser等人改進爲能夠應用於非線形問題後被普遍應用,在本世紀初期的很長時間裏被認爲是最好的分類器。


神經網絡(Neutral Network,NN):由名稱可知源於生物神經學,具備較長曆史,能夠處理複雜的非線形問題。傳統神經網絡的研究曾一度停滯,但隨着計算機計算能力的提高和卷積網絡結構的提出,由其發展而來的深度學習(Deep Learning)已經成爲當前機器學習中最強大的工具。


集成學習(Ensemble Learning):是一種利用若干個基礎分類器共同執行決策的方法。此方法近來被普遍應用,其中的隨機森林(Random Forrest)正在逐步取代SVM的地位;此外還有以AdaBoost爲表明的提高方法(Boosting Methods)。
全部的有監督學習算法都有必定的容錯性,即不要求全部歷史樣本絕對正確、能夠有部分標籤被錯誤分配的樣本。固然,樣本中的錯誤越多越不容易訓練出正確的模型。

 

3. 迴歸與分類的關係

讀者應該已經發現:雖然有監督學習的適用場景能夠分紅兩類,但介紹算法時並無區分哪些適用於迴歸,哪些適用於分類。其實大多數的算法均可以同時處理這兩類問題。如圖1-9,假設某算法能夠處理迴歸問題,那麼固然能夠將其值域劃分紅可數的幾段用以表徵分類問題。

 

圖1-9 迴歸模型能夠解決分類問題

圖1-9中,左圖是訓練的原始樣本;用線性迴歸學習後可獲得中圖的迴歸線,迴歸線上的點就是以後的預測點;右圖示意對迴歸結果設置閥值能夠用來表達分類問題。從這個角度看,迴歸與分類的區別只不過是從不一樣角度分析學習結果而已。

另外一方面,若是一個模型能夠解決分類問題,則在分類類別之間做線性插值就是一種最簡單的將分類模型轉化爲迴歸模型的方法。

所以,與不少教程書籍不一樣,本書不刻意區分它們,將有監督學習算法詳細原理與實踐的介紹統一在了第3章。此外考慮內容的連貫性將神經網路方面的內容放在深度學習章節一塊兒講解。

 

從機器學習,到深度學習

從深度學習,到強化學習

從強化學習,到深度強化學習

從優化模型,到模型的遷移學習

一本書搞定!

相關文章
相關標籤/搜索