機器學習 | 吳恩達斯坦福課程筆記整理之(一)線性迴歸

本系列爲吳恩達斯坦福CS229機器學習課程筆記整理,如下爲筆記目錄:git

  (一)線性迴歸算法

  (二)邏輯迴歸api

  (三)神經網絡網絡

  (四)算法分析與優化機器學習

  (五)支持向量機函數

  (六)K-Means學習

  (七)特徵降維優化

  (八)異常檢測spa

  (九)推薦系統orm

  (十)大規模機器學習

第一章 線性迴歸

1、ML引言

  • 學習行爲,定製服務
  • 監督學習和非監督學習
  • 瞭解應用學習算法的實用建議
1.3 監督學習
  • 基本思想:數據集中的每一個樣本都有相應的「正確答案」。再根據這些樣本做出預測。
  • 連續變量-迴歸,離散變量-分類;
1.4 非監督學習
  • 無標籤
  • 聚類算法
  • 從數據中找到某種結構

2、迴歸問題

  • 步驟:積累知識(training set)-> 學習(learning algorithm)->預測(對應關係)

3、線性迴歸與梯度降低

  • 預測
特徵,特徵向量,輸出向量,假設hypothesis(預測函數)
          
而稱爲迴歸方程,θ 爲迴歸係數
  • 偏差評估
評估各個真實值 y(i) 與預測值 hθ(x(i)) 之間的差別  -> 最小均方(Least Mean Square)
           
也稱爲代價函數(Cost function)
  • 批量梯度降低BGD
學習效果很差時,糾正學習策略
目標:反覆調節 θ 使得預測 J(θ) 足夠小  -> 梯度降低(Gradient Descent)
         
沿着梯度方向,接近最小值。
 
對於一個樣本容量爲 m 的訓練集,咱們定義 θ 的調優過程爲:重複直到收斂(Repeat until convergence),該過程爲基於最小均方(LMS)的批量梯度降低法(Batch Gradient Descent)
可是每調節一個θj ,都要歷一遍樣本集,若是樣本的體積m很大,開銷巨大
  • 隨機梯度降低(Stochastic Gradient Descent, SGD):樣本量巨大時,迅速得到最優解
        

4、正規方程

爲求得 J(θ) 的最小值,經過正規方程來最小化 J(θ) :
擺脫了學習率的束縛,但只適合於低維向量
        

5、特徵縮放

將各個特徵量化到統一的區間,兩種量化方式:
1)Standardization
又稱爲 Z-score normalization,量化後的特徵將服從標準正態分佈:
           
其中, μ, δ 分別爲對應特徵 xi 的均值和標準差。量化後的特徵將分佈在 [−1,1] 區間。
 
2)Min-Max Scaling
又稱爲 normalization
          
量化後的特徵將分佈在 [0,1] 區間。

6、多項式迴歸

方程中添加高階項,提升擬合效果

7、欠擬合和過擬合

  • 欠擬合(underfitting):擬合程度不高,數據距離擬合曲線較遠。
  • 過擬合(overfitting):過分擬合,貌似擬合幾乎每個數據,可是丟失了信息規律。
爲了解決欠擬合和過擬合問題,引入了局部加權線性迴歸(Locally Weight Regression)。
 
在 LWR 中,咱們對一個輸入 x 進行預測時,賦予了 x 周圍點不一樣的權值,距離 x 越近,權重越高。整個學習過程當中偏差將會取決於 x 周圍的偏差,而不是總體的偏差,這也就是局部一詞的由來。
一般, w(i) 服從高斯分佈,在 x 周圍呈指數型衰減:
其中, τ 值越小,則靠近
 
相關文章
相關標籤/搜索