機器學習 | 吳恩達斯坦福課程筆記整理之（一）線性迴歸

時間 2019-11-07

標籤機器學習斯坦福課程筆記整理線性迴歸欄目應用數學简体版

原文原文鏈接

本系列爲吳恩達斯坦福CS229機器學習課程筆記整理，如下爲筆記目錄：git

　　（一）線性迴歸算法

　　（二）邏輯迴歸api

　　（三）神經網絡網絡

　　（四）算法分析與優化機器學習

　　（五）支持向量機函數

　　（六）K-Means學習

　　（七）特徵降維優化

　　（八）異常檢測spa

　　（九）推薦系統orm

　　（十）大規模機器學習

第一章線性迴歸

1、ML引言

學習行爲，定製服務
監督學習和非監督學習
瞭解應用學習算法的實用建議

1.3 監督學習

基本思想：數據集中的每一個樣本都有相應的「正確答案」。再根據這些樣本做出預測。
連續變量-迴歸，離散變量-分類；

1.4 非監督學習

無標籤
聚類算法
從數據中找到某種結構

2、迴歸問題

步驟：積累知識（training set）-> 學習（learning algorithm）->預測（對應關係）

3、線性迴歸與梯度降低

預測

特徵，特徵向量，輸出向量，假設hypothesis（預測函數）

而稱爲迴歸方程，θ 爲迴歸係數

偏差評估

評估各個真實值 y(i) 與預測值 hθ(x(i)) 之間的差別 -> 最小均方（Least Mean Square）

也稱爲代價函數（Cost function）

批量梯度降低BGD

學習效果很差時，糾正學習策略

目標：反覆調節 θ 使得預測 J(θ) 足夠小 -> 梯度降低（Gradient Descent）

沿着梯度方向，接近最小值。

對於一個樣本容量爲 m 的訓練集，咱們定義 θ 的調優過程爲：重複直到收斂（Repeat until convergence），該過程爲基於最小均方（LMS）的批量梯度降低法（Batch Gradient Descent）

可是每調節一個θj ，都要歷一遍樣本集，若是樣本的體積m很大，開銷巨大

隨機梯度降低（Stochastic Gradient Descent, SGD）：樣本量巨大時，迅速得到最優解

4、正規方程

爲求得 J(θ) 的最小值，經過正規方程來最小化 J(θ) ：

擺脫了學習率的束縛，但只適合於低維向量

5、特徵縮放

將各個特徵量化到統一的區間，兩種量化方式：

1）Standardization

又稱爲 Z-score normalization，量化後的特徵將服從標準正態分佈：

其中, μ, δ 分別爲對應特徵 xi 的均值和標準差。量化後的特徵將分佈在 [−1,1] 區間。

2）Min-Max Scaling

又稱爲 normalization

量化後的特徵將分佈在 [0,1] 區間。

6、多項式迴歸

方程中添加高階項，提升擬合效果

7、欠擬合和過擬合

欠擬合（underfitting）：擬合程度不高，數據距離擬合曲線較遠。
過擬合（overfitting）：過分擬合，貌似擬合幾乎每個數據，可是丟失了信息規律。

爲了解決欠擬合和過擬合問題，引入了局部加權線性迴歸（Locally Weight Regression）。

在 LWR 中，咱們對一個輸入 x 進行預測時，賦予了 x 周圍點不一樣的權值，距離 x 越近，權重越高。整個學習過程當中偏差將會取決於 x 周圍的偏差，而不是總體的偏差，這也就是局部一詞的由來。

一般， w(i) 服從高斯分佈，在 x 周圍呈指數型衰減：

其中， τ 值越小，則靠近

參考： https://yoyoyohamapi.gitbooks.io/mit-ml/content/

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。