本系列爲吳恩達斯坦福CS229機器學習課程筆記整理,如下爲筆記目錄:git
(一)線性迴歸算法
(二)邏輯迴歸api
(三)神經網絡網絡
(四)算法分析與優化機器學習
(五)支持向量機函數
(六)K-Means學習
(七)特徵降維優化
(八)異常檢測spa
(九)推薦系統orm
(十)大規模機器學習
第一章 線性迴歸
1、ML引言
- 學習行爲,定製服務
- 監督學習和非監督學習
- 瞭解應用學習算法的實用建議
1.3 監督學習
- 基本思想:數據集中的每一個樣本都有相應的「正確答案」。再根據這些樣本做出預測。
- 連續變量-迴歸,離散變量-分類;
1.4 非監督學習
2、迴歸問題
- 步驟:積累知識(training set)-> 學習(learning algorithm)->預測(對應關係)
3、線性迴歸與梯度降低
特徵,特徵向量,輸出向量,假設hypothesis(預測函數)
而稱爲迴歸方程,θ 爲迴歸係數
評估各個真實值 y(i) 與預測值 hθ(x(i)) 之間的差別 -> 最小均方(Least Mean Square)
也稱爲代價函數(Cost function)
學習效果很差時,糾正學習策略
目標:反覆調節 θ 使得預測 J(θ) 足夠小 -> 梯度降低(Gradient Descent)
沿着梯度方向,接近最小值。
對於一個樣本容量爲 m 的訓練集,咱們定義 θ 的調優過程爲:重複直到收斂(Repeat until convergence),該過程爲基於最小均方(LMS)的批量梯度降低法(Batch Gradient Descent)
可是每調節一個θj ,都要歷一遍樣本集,若是樣本的體積m很大,開銷巨大
- 隨機梯度降低(Stochastic Gradient Descent, SGD):樣本量巨大時,迅速得到最優解
4、正規方程
爲求得 J(θ) 的最小值,經過正規方程來最小化 J(θ) :
擺脫了學習率的束縛,但只適合於低維向量
5、特徵縮放
將各個特徵量化到統一的區間,兩種量化方式:
1)Standardization
又稱爲 Z-score normalization,量化後的特徵將服從標準正態分佈:
其中, μ, δ 分別爲對應特徵 xi 的均值和標準差。量化後的特徵將分佈在 [−1,1] 區間。
2)Min-Max Scaling
又稱爲 normalization
量化後的特徵將分佈在 [0,1] 區間。
6、多項式迴歸
方程中添加高階項,提升擬合效果
7、欠擬合和過擬合
- 欠擬合(underfitting):擬合程度不高,數據距離擬合曲線較遠。
- 過擬合(overfitting):過分擬合,貌似擬合幾乎每個數據,可是丟失了信息規律。
爲了解決欠擬合和過擬合問題,引入了局部加權線性迴歸(Locally Weight Regression)。
在 LWR 中,咱們對一個輸入 x 進行預測時,賦予了 x 周圍點不一樣的權值,距離 x 越近,權重越高。整個學習過程當中偏差將會取決於 x 周圍的偏差,而不是總體的偏差,這也就是局部一詞的由來。
一般, w(i) 服從高斯分佈,在 x 周圍呈指數型衰減:
其中, τ 值越小,則靠近