深度學習中的機率知識詳解

時間 2019-11-10

標籤深度學習機率知識詳解简体版

原文原文鏈接

1. 基礎概念

隨機變量(連續,離散): 對可能狀態的描述, 在機器學習算法中，每一個樣本的特徵取值，標籤值均可以看做是一個隨機變量，包括離散型隨機變量和連續型隨機變量
機率分佈: 用來指定每一個狀態的可能性, 對於離散型的機率分佈，稱爲機率質量函數(Probability Mass Function, PMF)，對於連續性的變量，其機率分佈叫作機率密度函數(Probability Density Function, PDF).
邊緣機率分佈:若是咱們知道了一組變量的聯合機率分佈,但想要了解其中一個子集的機率分佈,這個子集的機率分佈稱爲邊緣機率分佈
聯合機率分佈:兩個或兩個以上隨機隨機變量聯合地機率分佈狀況。
相互獨立: 若是$\forall x \in X, y \in Y, P(X=x,Y=y) = P(X=x)P(Y=y)$，那麼就稱隨機變量Ｘ和Ｙ是相互獨立的。
條件獨立: 若是$\forall x \in X, y \in Y, z \in Z, P(X=x,Y=y \| Z=z) = P(X=x \| Z=z)P(Y=y \| Z=z)$，那麼就稱隨機變量Ｘ和Ｙ是關於Ｚ相互獨立的。
貝葉斯準則: 在已知$P(y \| x)$和$P(x)$的狀況下，$P(x \| y)＝\frac{P(x)P(y \| x)}{P(y)}$，貝葉斯準則常常被用在已知參數的先驗分佈狀況下求後驗分佈。
指望: 函數$f(x)$在某個分佈$P(x)$下的平均表現狀況，記爲$E_{x \sim P}[f(x)]=\int{p(x)f(x)dx}$。
方差: 函數$f(x)$在某個分不下表現的差別性，記爲$Var(f(x)=E[(f(x)-E[f(x)])^2]$。
協方差: 兩個變量之間線性相關的強度，記爲$Cov(f(x),g(x))= E[(f(x)-E[f(x)])(g(x)-E(g(x)))]$。
條件機率: 求B條件下, A發生的機率: $$ P(A|B)=\frac{P(AB)}{P(B)}$$
條件機率的鏈式法則:算法

$$ \begin{align*} P(a,b,c) &= P(a|b|c)P(b,c) \\ P(b,c) &= P(b|c)P(c) \\ P(a,b,c) &= P(a|b,c)P(b|c)P(c) \end{align*} $$網絡

信息熵: 描述某個機率分佈中不肯定性的度量，記爲$H(x)= -E_{x \sim P}[\log P(x)]$。
交叉熵: 描述兩個機率分佈之間類似度的一個指標，在機器學習中常用交叉熵做爲分類任務的損失函數，記爲$H(P,Q)=-E_{x \sim P}[\log Q(x)]$。機器學習

2. 指望,方差,協方差

指望反應函數$f(x)$的平均值. 設$E_x~p[f(x)]$是函數$f(x)$關於某分佈$P(x)$的指望:函數

對於離散型隨機變量: $$E_x~p[f(x)]=\sum_x{P(x)f(x)}$$
對於連續性隨機變量:

$$E_x~p[f(x)]=\int p(x)f(x)dx$$學習

一般在機率上下文中能夠不寫腳標: $E[f(x)]$, 更通常地, 當沒有歧義時能夠省略方括號, 將指望簡寫爲$E$.優化

指望是線性的: $$E_x[\alpha{f(x)}+\beta{g(x)}]=\alpha{E_x}[f(x)]+\beta{E_x}[g(x)]$$spa

方差衡量x依它的機率分佈採樣時, 隨機變量x的函數$f(x)$差別程度. 方差的定義:
$$ Var(f(x))=E[|f(x)-E[f(x)]|^2]$$orm

協方差給出兩個變量的線性相關度及這些變量的尺度. 協方差定義:
$$ Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E(g(y)])]$$對象

相關係數$\rho_{xy}$
$$\rho_{xy} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$$blog

關於協方差的特性:

若協方差絕對值很大, 則變量值得變化很大, 且相距各自均值很遠
若協方差爲正, 則兩變量x,y都傾向於取較大值, 若協方差爲負, 則一個傾向於取較大值,另外一個傾向取較小值

相關係數: 將每一個變量歸一化, 之衡量變量間的相關性, 不關注變量尺度大小.

3. 經常使用的機率分佈模型

Bernoulli分佈和Multinoulli分佈

Bernoulli分佈是單個二值隨機變量分佈, 單參數$\phi{\in}[0,1]$控制,$\phi$給出隨機變量等於1的機率. 一些性質:
機率:

$$ \begin{align*} P(x=1) &= \phi \\ P(x=0) &= 1-\phi \\ P(x=x) &= \phi^x(1-\phi)^{1-x} \\ \end{align*} $$

方差,指望:

$$ \begin{align*} E_x[x] &= \phi \\ Var_x(x) &= \phi{(1-\phi)} \end{align*} $$

Multinoulli分佈也叫範疇分佈, 是單個$k$值隨機分佈,常常用來表示對象分類的分佈.
, 其中$k$是有限值.Multinoulli分佈由向量$\vec{p}\in[0,1]^{k-1}$參數化,每一個份量$p_i$表示第i個狀態的機率, 且$p_k=1-1^Tp$.

適用範圍: 伯努利分佈適合對離散型隨機變量建模, 注意下述狄拉克$\delta$函數適用對連續性隨機變量的經驗分佈建模.

高斯分佈

高斯也叫正態分佈(Normal Distribution), 機率度函數以下:
$$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )$$
其中, $\mu$和$\sigma$分別是均值和方差, 中心峯值x座標由$\mu$給出, 峯的寬度受$\sigma$控制, 最大點在$x=\mu$處取得, 拐點爲$x=\mu{\pm}\sigma$.

正態分佈中，±1σ、±2σ、±3σ下的機率分別是68.3%、95.5%、99.73%，這3個數最好記住。
此外, 令$\mu=0,\sigma=1$高斯分佈即簡化爲標準正態分佈:
$$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )$$

對機率密度函數高效求值:
$$N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)$$
其中, $\beta=\frac{1}{\sigma^2}$, 經過參數$\beta\in(0,\infty)$來控制分佈的精度.

問: 什麼時候採用正態分佈?
答: 缺少實數上分佈的先驗知識, 不知選擇何種形式時, 默認選擇正態分佈老是不會錯的, 理由以下:

中心極限定理告訴咱們, 不少獨立隨機變量均近似服從正態分佈, 現實中不少複雜系統均可以被建模成正態分佈的噪聲, 即便該系統能夠被結構化分解.
正態分佈是具備相同方差的全部機率分佈中, 不肯定性最大的分佈, 換句話說, 正態分佈是對模型加入先驗知識最少的分佈.

正態分佈的推廣:
正態分佈能夠推廣到$R^n$空間, 此時稱爲多位正態分佈, 其參數是一個正定對稱矩陣$\sum$:
$$N(x;\vec\mu,\sum)=\sqrt{\frac{1}{2\pi^ndet(\sum)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\sum^-1(\vec{x}-\vec{\mu})\right)$$

對多爲正態分佈機率密度高效求值:
$$N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)$$

, 此處, $\vec\beta$是一個精度矩陣.

指數分佈和Laplace分佈

指數分佈

深度學習中, 指數分佈用來描述在$x=0$點出取得邊界點的分佈, 指數分佈定義以下:

$$p(x;\lambda)=\lambda1_{x\geq 0}exp(-\lambda{x})$$
, 指數分佈用指示函數$I_{x>=0}$來使x取負值時的機率爲零.

Laplace分佈
Laplace分佈容許咱們在任意一點$\mu$處設置機率質量的峯值:
$$ Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)$$

Dirac分佈和經驗分佈

Dirac分佈
Dirac分佈可保證機率分佈中全部質量都集中在一個點上. Diract分佈的狄拉克δ函數(也稱爲單位脈衝函數)定義以下:
$$p(x)=\delta(x-\mu), x\neq \mu$$
$$\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b$$

狄拉克δ函數圖像:

說明:

嚴格來講狄拉克δ函數不能算是一個函數，而是一種數學對象, 由於知足以上條件的函數是不存在的, 可是咱們能夠用分佈的概念來解釋, 所以稱爲狄拉克分佈或者$\delta$分佈
它是一種極簡單的廣義函數. 廣義函數是一種數學對象, 依據積分性質而定義. 咱們能夠把狄拉克$\delta$函數想成一系列函數的極限點, 這一系列函數把除0之外的全部點的機率密度越變越小.

經驗分佈
狄拉克分佈常做爲經驗分佈的一個組成部分:
$$\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})$$

, 其中, m個點$x^{(1)}$, ..., $x^{(m)}$是給定的數據集, 經驗分佈將機率密度$\frac{1}{m}$賦給了這些點.

當咱們在訓練集上訓練模型時, 能夠認爲從這個訓練集上獲得的經驗分佈指明瞭採樣來源.

適用範圍: 狄拉克δ函數適合對連續型隨機變量的經驗分佈

拉普拉斯分佈(Laplace distribution)

有着與高斯分佈很相近的形式，機率密度函數爲Laplace(x;μ,γ)=12γexp(−|x−μ|γ)$，形狀以下圖：

高斯分佈

拉普拉斯分佈

4. 深度學習經常使用激活函數

Logistic sigmoid函數
- $\sigma(x) = \frac{1}{1+\exp(-x)}$
- 函數圖像
- logistic函數有許多重要的性質，一般被用來對數值進行平滑，下面是它的部分性質
  
  $$ \begin{align*} \\ \sigma(x) &= \frac{e^x}{e^x+e^0} \\ \frac{d}{dx}\sigma(x) &= \sigma(x)(1-\sigma(x)) \\ 1-\sigma(x) &= \sigma(-x) \\ log\sigma(x) &= -\zeta(-x) \\ \end{align*} $$
線性整流函數(Rectified Linear Unit, ReLU)
- $ReLU(x) = max(0,x)$
- 目前神經網絡中最經常使用的一種非線性激活函數
Softplus函數
- $\zeta(x) = \log(1+\exp(x))$
- softplus函數能夠看做是$max(0,x)$的一個平滑，他與ReLU的函數圖像以下
- 它有以下性質
  
  $$ \begin{align*} \\ \frac{d}{dx}\xi(x) &= \sigma(x) \\ \forall x \in (0,1), \sigma^{-1}(x) &= log(\frac{x}{1-x}) \\ \forall x > 0, \zeta^{-1}(x) &= log(e^x-1) \\ \zeta(x) &= \int_{-\infty }^{x}\sigma(y)dy \\ \zeta(x) - \zeta(-x) &= x \end{align*} $$

5．結構化機率模型

機率圖模型: 經過圖的概念來表示隨機變量之間的機率依賴關係
有向圖表示的機率模型：

下圖即爲一個關於變量$a,b,c,d,e$之間的有向圖模型，經過該圖能夠計算
$$p(a,b,c,d,e)=p(a)p(b \| a)p(c \| a,b)p(d \| b)p(e \| c)$$

無向圖表示的機率模型：
公式:

圖:

似然函數

在數理統計學中，似然函數是一種關於統計模型中的參數的函數，表示模型參數中的似然性。似然函數能夠理解爲條件機率的逆反。

在已知某個參數$\alpha$時，事件A會發生的條件機率能夠寫做$P(A;\alpha)$，也就是$P(A|\alpha)$。咱們也能夠構造似然性的方法來表示事件A發生後估計參數$\alpha$的可能性，也就表示爲$L(\alpha|A)$，其中$L(\alpha|A)=P(A|\alpha)$。

最大似然估計（MLE）與最大後驗機率（MAP）

最大似然估計是似然函數最初的應用。似然函數取得最大值表示相應的參數可以使得統計模型最爲合理。從這樣一個想法出發，最大似然估計的作法是：首先選取似然函數（通常是機率密度函數或機率質量函數），整理以後求最大值。實際應用中通常會取似然函數的對數做爲求最大值的函數，這樣求出的最大值和直接求最大值獲得的結果是相同的。似然函數的最大值不必定惟一，也不必定存在。

這裏簡單的說一下最大後驗機率（MAP），以下面的公式
$$P(\alpha|X)=\frac{P(X|\alpha)P(\alpha)}{P(X)}$$
其中等式左邊$P(\alpha|X)$表示的就是後驗機率，優化目標即爲$argmax_{\alpha}P(\alpha|X)$，即給定了觀測值X之後使模型參數$\alpha$出現的機率最大。等式右邊的分子式$P(X|\alpha)$即爲似然函數$L(\alpha|X)$，MAP考慮了模型參數$\alpha$出現的先驗機率$P(\alpha)$。即就算似然機率$P(X|\alpha)$很大，可是$\alpha$出現的可能性很小，也更傾向於不考慮模型參數爲$\alpha$。