隨機變量(連續,離散): 對可能狀態的描述, 在機器學習算法中,每一個樣本的特徵取值,標籤值均可以看做是一個隨機變量,包括離散型隨機變量和連續型隨機變量
機率分佈: 用來指定每一個狀態的可能性, 對於離散型的機率分佈,稱爲機率質量函數(Probability Mass Function, PMF),對於連續性的變量,其機率分佈叫作機率密度函數(Probability Density Function, PDF).
邊緣機率分佈:若是咱們知道了一組變量的聯合機率分佈,但想要了解其中一個子集的機率分佈,這個子集的機率分佈稱爲邊緣機率分佈
聯合機率分佈:兩個或兩個以上隨機隨機變量聯合地機率分佈狀況。
相互獨立: 若是$\forall x \in X, y \in Y, P(X=x,Y=y) = P(X=x)P(Y=y)$,那麼就稱隨機變量X和Y是相互獨立的。
條件獨立: 若是$\forall x \in X, y \in Y, z \in Z, P(X=x,Y=y \| Z=z) = P(X=x \| Z=z)P(Y=y \| Z=z)$,那麼就稱隨機變量X和Y是關於Z相互獨立的。
貝葉斯準則: 在已知$P(y \| x)$和$P(x)$的狀況下,$P(x \| y)=\frac{P(x)P(y \| x)}{P(y)}$,貝葉斯準則常常被用在已知參數的先驗分佈狀況下求後驗分佈。
指望: 函數$f(x)$在某個分佈$P(x)$下的平均表現狀況,記爲$E_{x \sim P}[f(x)]=\int{p(x)f(x)dx}$。
方差: 函數$f(x)$在某個分不下表現的差別性,記爲$Var(f(x)=E[(f(x)-E[f(x)])^2]$。
協方差: 兩個變量之間線性相關的強度,記爲$Cov(f(x),g(x))= E[(f(x)-E[f(x)])(g(x)-E(g(x)))]$。
條件機率: 求B條件下, A發生的機率: $$ P(A|B)=\frac{P(AB)}{P(B)}$$
條件機率的鏈式法則:算法
$$ \begin{align*} P(a,b,c) &= P(a|b|c)P(b,c) \\ P(b,c) &= P(b|c)P(c) \\ P(a,b,c) &= P(a|b,c)P(b|c)P(c) \end{align*} $$網絡
信息熵: 描述某個機率分佈中不肯定性的度量,記爲$H(x)= -E_{x \sim P}[\log P(x)]$。
交叉熵: 描述兩個機率分佈之間類似度的一個指標,在機器學習中常用交叉熵做爲分類任務的損失函數,記爲$H(P,Q)=-E_{x \sim P}[\log Q(x)]$。機器學習
指望反應函數$f(x)$的平均值. 設$E_x~p[f(x)]$是函數$f(x)$關於某分佈$P(x)$的指望:函數
$$E_x~p[f(x)]=\int p(x)f(x)dx$$學習
一般在機率上下文中能夠不寫腳標: $E[f(x)]$, 更通常地, 當沒有歧義時能夠省略方括號, 將指望簡寫爲$E$.優化
指望是線性的: $$E_x[\alpha{f(x)}+\beta{g(x)}]=\alpha{E_x}[f(x)]+\beta{E_x}[g(x)]$$spa
方差衡量x依它的機率分佈採樣時, 隨機變量x的函數$f(x)$差別程度. 方差的定義:
$$ Var(f(x))=E[|f(x)-E[f(x)]|^2]$$orm
協方差給出兩個變量的線性相關度及這些變量的尺度. 協方差定義:
$$ Cov(f(x),g(y))=E[(f(x)-E[f(x)])(g(y)-E(g(y)])]$$對象
相關係數$\rho_{xy}$
$$\rho_{xy} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$$blog
關於協方差的特性:
相關係數: 將每一個變量歸一化, 之衡量變量間的相關性, 不關注變量尺度大小.
Bernoulli分佈是單個二值隨機變量分佈, 單參數$\phi{\in}[0,1]$控制,$\phi$給出隨機變量等於1的機率. 一些性質:
機率:
$$ \begin{align*} P(x=1) &= \phi \\ P(x=0) &= 1-\phi \\ P(x=x) &= \phi^x(1-\phi)^{1-x} \\ \end{align*} $$
方差,指望:
$$ \begin{align*} E_x[x] &= \phi \\ Var_x(x) &= \phi{(1-\phi)} \end{align*} $$
Multinoulli分佈也叫範疇分佈, 是單個$k$值隨機分佈,常常用來表示對象分類的分佈.
, 其中$k$是有限值.Multinoulli分佈由向量$\vec{p}\in[0,1]^{k-1}$參數化,每一個份量$p_i$表示第i個狀態的機率, 且$p_k=1-1^Tp$.
適用範圍: 伯努利分佈適合對離散型隨機變量建模, 注意下述狄拉克$\delta$函數適用對連續性隨機變量的經驗分佈建模.
高斯也叫正態分佈(Normal Distribution), 機率度函數以下:
$$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp\left ( -\frac{1}{2\sigma^2}(x-\mu)^2 \right )$$
其中, $\mu$和$\sigma$分別是均值和方差, 中心峯值x座標由$\mu$給出, 峯的寬度受$\sigma$控制, 最大點在$x=\mu$處取得, 拐點爲$x=\mu{\pm}\sigma$.
正態分佈中,±1σ、±2σ、±3σ下的機率分別是68.3%、95.5%、99.73%,這3個數最好記住。
此外, 令$\mu=0,\sigma=1$高斯分佈即簡化爲標準正態分佈:
$$N(x;\mu,\sigma^2) = \sqrt{\frac{1}{2\pi}}exp\left ( -\frac{1}{2}x^2 \right )$$
對機率密度函數高效求值:
$$N(x;\mu,\beta^{-1})=\sqrt{\frac{\beta}{2\pi}}exp\left(-\frac{1}{2}\beta(x-\mu)^2\right)$$
其中, $\beta=\frac{1}{\sigma^2}$, 經過參數$\beta\in(0,\infty)$來控制分佈的精度.
問: 什麼時候採用正態分佈?
答: 缺少實數上分佈的先驗知識, 不知選擇何種形式時, 默認選擇正態分佈老是不會錯的, 理由以下:
正態分佈的推廣:
正態分佈能夠推廣到$R^n$空間, 此時稱爲多位正態分佈, 其參數是一個正定對稱矩陣$\sum$:
$$N(x;\vec\mu,\sum)=\sqrt{\frac{1}{2\pi^ndet(\sum)}}exp\left(-\frac{1}{2}(\vec{x}-\vec{\mu})^T\sum^-1(\vec{x}-\vec{\mu})\right)$$
對多爲正態分佈機率密度高效求值:
$$N(x;\vec{\mu},\vec\beta^{-1}) = \sqrt{det(\vec\beta)}{(2\pi)^n}exp\left(-\frac{1}{2}(\vec{x}-\vec\mu)^T\beta(\vec{x}-\vec\mu)\right)$$
, 此處, $\vec\beta$是一個精度矩陣.
指數分佈
深度學習中, 指數分佈用來描述在$x=0$點出取得邊界點的分佈, 指數分佈定義以下:
$$p(x;\lambda)=\lambda1_{x\geq 0}exp(-\lambda{x})$$
, 指數分佈用指示函數$I_{x>=0}$來使x取負值時的機率爲零.
Laplace分佈
Laplace分佈容許咱們在任意一點$\mu$處設置機率質量的峯值:
$$ Laplace(x;\mu;\gamma)=\frac{1}{2\gamma}exp\left(-\frac{|x-\mu|}{\gamma}\right)$$
Dirac分佈
Dirac分佈可保證機率分佈中全部質量都集中在一個點上. Diract分佈的狄拉克δ函數(也稱爲單位脈衝函數)定義以下:
$$p(x)=\delta(x-\mu), x\neq \mu$$
$$\int_{a}^{b}\delta(x-\mu)dx = 1, a < \mu < b$$
狄拉克δ函數圖像:
說明:
經驗分佈
狄拉克分佈常做爲經驗分佈的一個組成部分:
$$\hat{p}(\vec{x})=\frac{1}{m}\sum_{i=1}^{m}\delta(\vec{x}-{\vec{x}}^{(i)})$$
, 其中, m個點$x^{(1)}$, ..., $x^{(m)}$是給定的數據集, 經驗分佈將機率密度$\frac{1}{m}$賦給了這些點.
當咱們在訓練集上訓練模型時, 能夠認爲從這個訓練集上獲得的經驗分佈指明瞭採樣來源.
適用範圍: 狄拉克δ函數適合對連續型隨機變量的經驗分佈
有着與高斯分佈很相近的形式,機率密度函數爲Laplace(x;μ,γ)=12γexp(−|x−μ|γ)$,形狀以下圖:
高斯分佈
拉普拉斯分佈
Logistic sigmoid函數
logistic函數有許多重要的性質,一般被用來對數值進行平滑,下面是它的部分性質
$$ \begin{align*} \\ \sigma(x) &= \frac{e^x}{e^x+e^0} \\ \frac{d}{dx}\sigma(x) &= \sigma(x)(1-\sigma(x)) \\ 1-\sigma(x) &= \sigma(-x) \\ log\sigma(x) &= -\zeta(-x) \\ \end{align*} $$
線性整流函數(Rectified Linear Unit, ReLU)
Softplus函數
它有以下性質
$$ \begin{align*} \\ \frac{d}{dx}\xi(x) &= \sigma(x) \\ \forall x \in (0,1), \sigma^{-1}(x) &= log(\frac{x}{1-x}) \\ \forall x > 0, \zeta^{-1}(x) &= log(e^x-1) \\ \zeta(x) &= \int_{-\infty }^{x}\sigma(y)dy \\ \zeta(x) - \zeta(-x) &= x \end{align*} $$
機率圖模型: 經過圖的概念來表示隨機變量之間的機率依賴關係
有向圖表示的機率模型:
下圖即爲一個關於變量$a,b,c,d,e$之間的有向圖模型,經過該圖能夠計算
$$p(a,b,c,d,e)=p(a)p(b \| a)p(c \| a,b)p(d \| b)p(e \| c)$$
無向圖表示的機率模型:
公式:
圖:
在數理統計學中,似然函數是一種關於統計模型中的參數的函數,表示模型參數中的似然性。似然函數能夠理解爲條件機率的逆反。
在已知某個參數$\alpha$時,事件A會發生的條件機率能夠寫做$P(A;\alpha)$,也就是$P(A|\alpha)$。咱們也能夠構造似然性的方法來表示事件A發生後估計參數$\alpha$的可能性,也就表示爲$L(\alpha|A)$,其中$L(\alpha|A)=P(A|\alpha)$。
最大似然估計是似然函數最初的應用。似然函數取得最大值表示相應的參數可以使得統計模型最爲合理。從這樣一個想法出發,最大似然估計的作法是:首先選取似然函數(通常是機率密度函數或機率質量函數),整理以後求最大值。實際應用中通常會取似然函數的對數做爲求最大值的函數,這樣求出的最大值和直接求最大值獲得的結果是相同的。似然函數的最大值不必定惟一,也不必定存在。
這裏簡單的說一下最大後驗機率(MAP),以下面的公式
$$P(\alpha|X)=\frac{P(X|\alpha)P(\alpha)}{P(X)}$$
其中等式左邊$P(\alpha|X)$表示的就是後驗機率,優化目標即爲$argmax_{\alpha}P(\alpha|X)$,即給定了觀測值X之後使模型參數$\alpha$出現的機率最大。等式右邊的分子式$P(X|\alpha)$即爲似然函數$L(\alpha|X)$,MAP考慮了模型參數$\alpha$出現的先驗機率$P(\alpha)$。即就算似然機率$P(X|\alpha)$很大,可是$\alpha$出現的可能性很小,也更傾向於不考慮模型參數爲$\alpha$。
判別式模型學習的目標是條件機率$P(Y|X)$或者是決策函數$Y=f(X)$,其實這二者本質上是相同的。例如KNN,決策樹,SVM,CRF等模型都是判別式模型。
生成模型學習的是聯合機率分佈$P(X,Y)$,從而求得條件機率分佈$P(Y|X)$。例如NB,HMM等模型都是生成式模型。