又叫正態分佈(Normal Distribution), 記做\(N(μ,σ^2)\),機率密度和爲 1。面試
多元高斯分佈(Multivariate Gaussian),假設 n 個變量 \(x=[x_1,x_2,⋯,x_n]^T\) 互不相關, 且服從正態分佈,各個變量的均值 \(E(x)=[μ_1,μ_2,⋯,μ_n]^T\) ,標準誤差爲 \(σ(x)=[σ_1,σ_2,⋯,σ_n]^T\) ,根據聯合機率密度公式:算法
化簡爲:網絡
如,令\(z^2 = \frac{(x_1-\mu_1)^2}{\sigma_1^2}+\frac{(x_2-\mu_2)^2}{\sigma_2^2}...+\frac{(x_n-\mu_n)^2}{\sigma_n^2}\) , \(\sigma_z = \sigma_1\sigma_2...\sigma_n\), 則函數
Maximum Likelihood Estimation 簡稱 MLE,又叫極大似然估計,是根據數據採樣來估計機率分佈的經典方法,事實上,機率模型的訓練過程就是參數估計(parameter estimation)過程。post
首先,咱們聲明一個假設 \(h \in H\) ,令 \(D_c\) 表示訓練集 D 中第 c 類樣本組成的集合,那麼 \(P(D_c|h)\) 是在假設 h 的狀況下,數據 \(D_c\) 產生的機率。則假設 h 對數據集 \(D_c\) 的似然是學習
對 h 進行最大似然估計,就是尋找能最大化似然\(P(D_c|h)\)的假設h。spa
在上式中,用到了連乘操做,咱們都知道連乘操做中,一旦數據過大會形成下溢,因此咱們一般使用對數似然(Log-Likelihood)公式來替代上面的連乘公式:3d
那麼最大似然估計的目的就能夠寫爲公式:orm
既然咱們已經瞭解了最大似然估計,知道它能夠用來求參數值,那麼咱們如今能夠來求高斯分佈的參數 \(\mu_c\) 和 \(\sigma_c^2\)的最大似然估計:blog
即,經過最大似然估計求得的正態分佈均值就是樣本均值,方差就是 \((x - \mu_c)(x - \mu)^T\) 的均值。
最小二乘法的推導:
交叉熵的推導:
Bayes' Law,又稱貝葉斯定理(Bayes' theorem)或者貝葉斯規則(Bayes' rule)
公式:事件A發生的狀況下事件B發生的機率:
一般用於已經觀察到一個結果後,評估潛在的緣由的可能性,能夠將上述公式寫成:
也就是說貝葉斯推論是將後驗機率推導爲兩個先驗機率和似然函數的結果。
這裏說的變種,主要是針對損失函數的變種,除了均方偏差和交叉熵,咱們還能夠利用 Softmax 偏差(Softmax Error)。
Softmax一般用在處理多分類問題,經常使用於輸出層,將輸出轉換成機率,輸出總和爲1。公式爲:
偏差爲:
其中 N 是輸出層神經元的個數,P_i 是第 i 個神經元的輸出。從公式中能夠看出,Softmax函數的分子是輸入信號 \(z_i\) 的指數函數,分母是全部輸入信號的指數函數的和。
Conjugate gradients,是一種給迭代算法,在迭代中最終求得結果。
Natural gradients
Weight Decay,又叫L2正則化,主要用來抑制過擬合。衆所周知,許多的過擬合現象是因爲權重參數取值過大引發的。而權重衰退法經過對大的權重進行懲罰和抑制過擬合。假設損失函數利用平方損失函數(MSE),則引入 L2 正則化後的偏差公式爲:
Momentum,這是一個從物理學中引伸出的概念。Momentum 的出現主要是爲了解決隨機梯度降低法(SGD)的缺點。
SGD的缺點:若是函數的形狀非均向,梯度的方向沒有指向最小值的方向,那麼像SGD這種一直沿着梯度方向前進的算法就變得不那麼高效,以下圖,這是方程 \(f(x,y)=\frac{1}{20}x^2+y^2\) 的圖像:
該方程的等高線是沿x軸方向延申的橢圓狀。
該方程的梯度以下,y 軸方向上梯度大,x 軸方向上梯度小,從圖中能夠看出,雖然 \(f(x, y)\) 的最小值在 \((0, 0)\) 上,可是不少位置上的梯度方向沒有指向 \((0,0)\) 點:
咱們應用一下SGD,能夠看到路徑如圖所示,沿着「之」字型移動,效率很是的低。:
爲了不 SGD 的這個缺點,咱們考慮利用動量方法來替代,Momentum適合用來處理高曲率、小但一致的梯度,或者帶噪聲的梯度,公式以下。
第一個公式表示了物體在梯度方向上的受力,在這個力的做用下,物體的速度增長這一個物理法則。若是咱們的梯度函數的刨面形狀像一個水槽,權重更新的路徑就會像一個小球在碗中運動同樣。
出現這樣的運動軌跡的緣由:動量的更新過程其實就是在減弱橫向振動,並放大了向下運動。當連續的梯度指向相同的方向時,步長最大。即若是動量算法老是觀察到梯度g,那麼它會在方向-g上不停加速,直到達到最終速度,其中步長大小爲(由\(v \leftarrow \alpha v - \eta \frac{\delta E}{\delta w}\)得來)
若是 \(\alpha\) = 0.9,\(1-\alpha\) = 0.1,帶入上述公式,即動量中最大速度是SGD中的10倍,這個提高是顯而易見的。
注:在實際應用中,\(\alpha\) 初始值通常設置的比較小如0.5,0.9,0.99,而後逐漸增大,可是 \(\alpha\) 的調整沒有 \(\eta\) 的調整重要。