估計、誤差和方差

  • 本文首發自公衆號:RAIS

前言

本系列文章爲 《Deep Learning》 讀書筆記,能夠參看原書一塊兒閱讀,效果更佳。機器學習

估計

統計的目的是爲了推斷,大量的統計是爲了更好的推斷,這就是一種估計,一種根據現有信息對可能性的一種猜想。函數

  • 點估計:點估計指的是用樣本數據估計整體的參數,估計的結果是一個點的數值,所以叫作點估計。這個定義很是寬泛,$\hat{\theta}_m=g(x_1, x_2, ..., x_m)$,其中幾乎對 g 沒有什麼限制,只是說比較好的 g 會接近真實的 θ。
  • 函數估計:是一種映射關係,如 $y=f(x)+ϵ$,其中 ϵ 是從 x 中預測不出來的,咱們不關心,咱們關心的是函數估計 f,函數估計是一種從輸入到輸出的映射關係。

誤差

估計的誤差定義爲:$bias(\hat{\theta}_m)=E(\hat{\theta_m})-\theta$,這很好理解,估計與實際值之間的距離就是誤差,若是誤差爲 0,則$\hat{\theta}$是$\theta$的無偏估計,若是在 m 趨近於無窮大時,誤差趨近於 0,則$\hat{\theta}$是$\theta$的漸進無偏。學習

方差

上面咱們用估計量的指望來計算誤差,咱們還能夠用估計量的方差度量估計的變化程度,咱們但願指望這兩個值都較小。spa

對於高斯分佈來講,咱們有:blog

  • 樣本均值 $\hatμ_m=\frac{1}{m}\sum_{i=1}^mx^{(i)}$ 是高斯均值參數 μ 的無偏估計;
  • 樣本方差 $\hatσ_m^2=\frac{1}{m}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2$ 是 $σ^2$ 的有偏估計;
  • 無偏樣本方差 $\hatσ_m^2=\frac{1}{m-1}\sum_{i=1}^m(x^{(i)}-\hatμ_m)^2$ 是 $σ^2$ 的無偏估計;

無偏樣本方差顯然是比較不錯的,可是並不老是最好的,有時候某一些有偏估計也是很好的。好比在機器學習中,均值標準差就很是有用:rem

$$ SE(\hatμ_m)=\sqrt{Var[\frac{1}{m}\sum_{i=1}^mx^{(i)}]}=\frac{σ}{\sqrt{m}} $$get

或者寫成it

$$ σ_{\overline X}=\sqrt{Var(\overline X)}=\sqrt{\frac{1}{m}Var(X)}=\frac{σ}{\sqrt{m}} $$class

均方偏差(MSE)

$$ MSE=E[(\hatθ_m-θ)^2]=Bias(\hatθ_m)^2+Var(\hatθ_m) $$讀書筆記

魚和熊掌不可得兼,誤差和方差度量着估計量的兩個不一樣偏差來源,誤差度量着偏離真實函數或參數的偏差,方差度量着數據上任意特定採樣可能致使的估計指望的誤差,兩個估計,一個誤差大,一個方差大,怎麼選擇?選擇 MSE 較小的,由於 MSE 是用來度量泛化偏差的。誤差和方差之和就是均方偏差:

均方偏差

總結

本篇主要介紹了估計、誤差和方差,能夠用來正式的刻畫過擬合。

  • 本文首發自公衆號:RAIS
相關文章
相關標籤/搜索