線性代數
1、基本知識
- 本文中全部的向量都是列向量的形式:
\[\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^T=\begin{bmatrix}x_1\\x_2\\ \vdots \\x_n\end{bmatrix}\] 本書中全部的矩 \(\mathbf X\in \mathbb R^{m\times n}\) 都表示爲:
\[\mathbf X = \begin{bmatrix} x_{1,1}&x_{1,2}&\cdots&x_{1,n}\\ x_{2,1}&x_{2,2}&\cdots&x_{2,n}\\ \vdots&\vdots&\ddots&\vdots\\ x_{m,1}&x_{m,2}&\cdots&x_{m,n}\\ \end{bmatrix}\] 簡寫爲 \((x_{i,j})_{m\times n}\) 或 \([x_{i,j}]_{m\times n}\) 。
- 矩陣的
F
範數:設矩 \(\mathbf A=(a_{i,j})_{m\times n}\) ,則其F
範數爲 \(||\mathbf A||_F=\sqrt{\sum_{i,j}a_{i,j}^{2}}\) 。
它是向量 \(L_2\) 範數的推廣。
- 矩陣的跡:設矩 \(\mathbf A=(a_{i,j})_{m\times n}\) , $ \mathbf A$ 的跡爲 \(tr(\mathbf A)=\sum_{i}a_{i,i}\) 。
跡的性質有:
- \(\mathbf A\) 的
F
範數等 \(\mathbf A\mathbf A^T\) 的跡的平方根 \(||\mathbf A||_F=\sqrt{tr(\mathbf A \mathbf A^{T})}\) 。
- \(\mathbf A\) 的跡等 \(\mathbf A^T\) 的跡 \(tr(\mathbf A)=tr(\mathbf A^{T})\) 。
- 交換律:假設 \(\mathbf A\in \mathbb R^{m\times n},\mathbf B\in \mathbb R^{n\times m}\) ,則有 \(tr(\mathbf A\mathbf B)=tr(\mathbf B\mathbf A)\) 。
- 結合律 \(tr(\mathbf A\mathbf B\mathbf C)=tr(\mathbf C\mathbf A\mathbf B)=tr(\mathbf B\mathbf C\mathbf A)\) 。
2、向量操做
- 一組向 \(\mathbf{\vec v}_1,\mathbf{\vec v}_2,\cdots,\mathbf{\vec v}_n\) 是線性相關的:指存在一組不全爲零的實 \(a_1,a_2,\cdots,a_n\) ,使得 \(\sum_{i=1}^{n}a_i\mathbf{\vec v}_i=\mathbf{\vec 0}\) 。
一組向 \(\mathbf{\vec v}_1,\mathbf{\vec v}_2,\cdots,\mathbf{\vec v}_n\) 是線性無關的,當且僅 \(a_i=0,i=1,2,\cdots,n\) 時,纔有 \(\sum_{i=1}^{n}a_i\mathbf{\vec v}_i=\mathbf{\vec 0}\) 。
- 一個向量空間所包含的最大線性無關向量的數目,稱做該向量空間的維數。
三維向量的點積 \(\mathbf{\vec u}\cdot\mathbf{\vec v} =u _xv_x+u_yv_y+u_zv_z = |\mathbf{\vec u}| | \mathbf{\vec v}| \cos(\mathbf{\vec u},\mathbf{\vec v})\) 。
app
- 三維向量的叉積:
\[\mathbf{\vec w}=\mathbf{\vec u}\times \mathbf{\vec v}=\begin{bmatrix}\mathbf{\vec i}& \mathbf{\vec j}&\mathbf{\vec k}\\ u_x&u_y&u_z\\ v_x&v_y&v_z\\ \end{bmatrix}\] 其 \(\mathbf{\vec i}, \mathbf{\vec j},\mathbf{\vec k}\) 分別 \(x,y,z\) 軸的單位向量。
\[\mathbf{\vec u}=u_x\mathbf{\vec i}+u_y\mathbf{\vec j}+u_z\mathbf{\vec k},\quad \mathbf{\vec v}=v_x\mathbf{\vec i}+v_y\mathbf{\vec j}+v_z\mathbf{\vec k}\]
- $\mathbf{\vec u} $ 和 \(\mathbf{\vec v}\) 的叉積垂直於 \(\mathbf{\vec u},\mathbf{\vec v}\) 構成的平面,其方向符合右手規則。
- 叉積的模等於 \(\mathbf{\vec u},\mathbf{\vec v}\) 構成的平行四邊形的面積
- \(\mathbf{\vec u}\times \mathbf{\vec v}=-\mathbf{\vec v}\times \mathbf{\vec u}\)
- $\mathbf{\vec u}\times( \mathbf{\vec v} \times \mathbf{\vec w})=(\mathbf{\vec u}\cdot \mathbf{\vec w})\mathbf{\vec v}-(\mathbf{\vec u}\cdot \mathbf{\vec v})\mathbf{\vec w} $
- 三維向量的混合積:
\[[\mathbf{\vec u} \;\mathbf{\vec v} \;\mathbf{\vec w}]=(\mathbf{\vec u}\times \mathbf{\vec v})\cdot \mathbf{\vec w}= \mathbf{\vec u}\cdot (\mathbf{\vec v} \times \mathbf{\vec w})\\ =\begin{vmatrix} u_x&u_y&u_z\\ v_x&v_y&v_z\\ w_x&w_y&w_z \end{vmatrix} =\begin{vmatrix} u_x&v_x&w_x\\ u_y&v_y&w_y\\ u_z&v_z&w_z\end{vmatrix} \] 其物理意義爲: \(\mathbf{\vec u} ,\mathbf{\vec v} ,\mathbf{\vec w}\) 爲三個棱邊所圍成的平行六面體的體積。 \(\mathbf{\vec u} ,\mathbf{\vec v} ,\mathbf{\vec w}\) 構成右手系時,該平行六面體的體積爲正號。
兩個向量的並矢:給定兩個向 \(\mathbf {\vec x}=(x_1,x_2,\cdots,x_n)^{T}, \mathbf {\vec y}= (y_1,y_2,\cdots,y_m)^{T}\) ,則向量的並矢記做:
\[\mathbf {\vec x}\mathbf {\vec y} =\begin{bmatrix}x_1y_1&x_1y_2&\cdots&x_1y_m\\ x_2y_1&x_2y_2&\cdots&x_2y_m\\ \vdots&\vdots&\ddots&\vdots\\ x_ny_1&x_ny_2&\cdots&x_ny_m\\ \end{bmatrix}\] 也記 \(\mathbf {\vec x}\otimes\mathbf {\vec y}\) 或 \(\mathbf {\vec x} \mathbf {\vec y}^{T}\) 。機器學習
3、矩陣運算
- 給定兩個矩 \(\mathbf A=(a_{i,j}) \in \mathbb R^{m\times n},\mathbf B=(b_{i,j}) \in \mathbb R^{m\times n}\) ,定義:
- 阿達馬積
Hadamard product
(又稱做逐元素積):
\[\mathbf A \circ \mathbf B =\begin{bmatrix} a_{1,1}b_{1,1}&a_{1,2}b_{1,2}&\cdots&a_{1,n}b_{1,n}\\ a_{2,1}b_{2,1}&a_{2,2}b_{2,2}&\cdots&a_{2,n}b_{2,n}\\ \vdots&\vdots&\ddots&\vdots\\ a_{m,1}b_{m,1}&a_{m,2}b_{m,2}&\cdots&a_{m,n}b_{m,n}\end{bmatrix}\]
- 克羅內積
Kronnecker product
:
\[\mathbf A \otimes \mathbf B =\begin{bmatrix}a_{1,1}\mathbf B&a_{1,2}\mathbf B&\cdots&a_{1,n}\mathbf B\\ a_{2,1}\mathbf B&a_{2,2}\mathbf B&\cdots&a_{2,n}\mathbf B\\ \vdots&\vdots&\ddots&\vdots\\ a_{m,1}\mathbf B&a_{m,2}\mathbf B&\cdots&a_{m,n}\mathbf B \end{bmatrix}\]
\(\mathbf {\vec x},\mathbf {\vec a},\mathbf {\vec b},\mathbf {\vec c}\) \(n\) 階向量 \(\mathbf A,\mathbf B,\mathbf C,\mathbf X\) \(n\) 階方陣,則有:
\[\frac{\partial(\mathbf {\vec a}^{T}\mathbf {\vec x}) }{\partial \mathbf {\vec x} }=\frac{\partial(\mathbf {\vec x}^{T}\mathbf {\vec a}) }{\partial \mathbf {\vec x} } =\mathbf {\vec a}\] \[\frac{\partial(\mathbf {\vec a}^{T}\mathbf X\mathbf {\vec b}) }{\partial \mathbf X }=\mathbf {\vec a}\mathbf {\vec b}^{T}=\mathbf {\vec a}\otimes\mathbf {\vec b}\in \mathbb R^{n\times n}\] \[\frac{\partial(\mathbf {\vec a}^{T}\mathbf X^{T}\mathbf {\vec b}) }{\partial \mathbf X }=\mathbf {\vec b}\mathbf {\vec a}^{T}=\mathbf {\vec b}\otimes\mathbf {\vec a}\in \mathbb R^{n\times n}\] \[\frac{\partial(\mathbf {\vec a}^{T}\mathbf X\mathbf {\vec a}) }{\partial \mathbf X }=\frac{\partial(\mathbf {\vec a}^{T}\mathbf X^{T}\mathbf {\vec a}) }{\partial \mathbf X }=\mathbf {\vec a}\otimes\mathbf {\vec a}\] \[\frac{\partial(\mathbf {\vec a}^{T}\mathbf X^{T}\mathbf X\mathbf {\vec b}) }{\partial \mathbf X }=\mathbf X(\mathbf {\vec a}\otimes\mathbf {\vec b}+\mathbf {\vec b}\otimes\mathbf {\vec a})\] \[\frac{\partial[(\mathbf A\mathbf {\vec x}+\mathbf {\vec a})^{T}\mathbf C(\mathbf B\mathbf {\vec x}+\mathbf {\vec b})]}{\partial \mathbf {\vec x}}=\mathbf A^{T}\mathbf C(\mathbf B\mathbf {\vec x}+\mathbf {\vec b})+\mathbf B^{T}\mathbf C(\mathbf A\mathbf {\vec x}+\mathbf {\vec a})\] \[\frac{\partial (\mathbf {\vec x}^{T}\mathbf A \mathbf {\vec x})}{\partial \mathbf {\vec x}}=(\mathbf A+\mathbf A^{T})\mathbf {\vec x}\] \[\frac{\partial[(\mathbf X\mathbf {\vec b}+\mathbf {\vec c})^{T}\mathbf A(\mathbf X\mathbf {\vec b}+\mathbf {\vec c})]}{\partial \mathbf X}=(\mathbf A+\mathbf A^{T})(\mathbf X\mathbf {\vec b}+\mathbf {\vec c})\mathbf {\vec b}^{T} \] \[\frac{\partial (\mathbf {\vec b}^{T}\mathbf X^{T}\mathbf A \mathbf X\mathbf {\vec c})}{\partial \mathbf X}=\mathbf A^{T}\mathbf X\mathbf {\vec b}\mathbf {\vec c}^{T}+\mathbf A\mathbf X\mathbf {\vec c}\mathbf {\vec b}^{T}\]函數
- 如 \(f\) 是一元函數,則:
- 其逐元向量函數爲 \(f(\mathbf{\vec x}) =(f(x_1),f(x_2),\cdots,f(x_n))^{T}\) 。
- 其逐矩陣函數爲:
\[f(\mathbf X)=\begin{bmatrix} f(x_{1,1})&f(x_{1,2})&\cdots&f(x_{1,n})\\ f(x_{2,1})&f(x_{2,2})&\cdots&f(x_{2,n})\\ \vdots&\vdots&\ddots&\vdots\\ f(x_{m,1})&f(x_{m,2})&\cdots&f(x_{m,n})\\ \end{bmatrix}\]
- 其逐元導數分別爲:
\[f^{\prime}(\mathbf{\vec x}) =(f^{\prime}(x1),f^{\prime}(x2),\cdots,f^{\prime}(x_n))^{T}\\ f^{\prime}(\mathbf X)=\begin{bmatrix} f^{\prime}(x_{1,1})&f^{\prime}(x_{1,2})&\cdots&f^{\prime}(x_{1,n})\\ f^{\prime}(x_{2,1})&f^{\prime}(x_{2,2})&\cdots&f^{\prime}(x_{2,n})\\ \vdots&\vdots&\ddots&\vdots\\ f^{\prime}(x_{m,1})&f^{\prime}(x_{m,2})&\cdots&f^{\prime}(x_{m,n})\\ \end{bmatrix}\]
- 各類類型的偏導數:
- 標量對標量的偏導數 \(\frac{\partial u}{\partial v}\) 。
- 標量對向量 \(n\) 維向量)的偏導數 \(\frac{\partial u}{\partial \mathbf {\vec v}}=(\frac{\partial u}{\partial v_1},\frac{\partial u}{\partial v_2},\cdots,\frac{\partial u}{\partial v_n})^{T}\) 。
- 標量對矩陣 \(m\times n\) 階矩陣)的偏導數:
\[\frac{\partial u}{\partial \mathbf V}=\begin{bmatrix} \frac{\partial u}{\partial V_{1,1}}&\frac{\partial u}{\partial V_{1,2}}&\cdots&\frac{\partial u}{\partial V_{1,n}}\\ \frac{\partial u}{\partial V_{2,1}}&\frac{\partial u}{\partial V_{2,2}}&\cdots&\frac{\partial u}{\partial V_{2,n}}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial u}{\partial V_{m,1}}&\frac{\partial u}{\partial V_{m,2}}&\cdots&\frac{\partial u}{\partial V_{m,n}} \end{bmatrix}\]
- 向量 \(m\) 維向量)對標量的偏導數 \(\frac{\partial \mathbf {\vec u}}{\partial v}=(\frac{\partial u_1}{\partial v},\frac{\partial u_2}{\partial v},\cdots,\frac{\partial u_m}{\partial v})^{T}\) 。
- 向量 \(m\) 維向量)對向量 \(n\) 維向量)的偏導數(雅可比矩陣,行優先)
\[\frac{\partial \mathbf {\vec u}}{\partial \mathbf {\vec v}}=\begin{bmatrix} \frac{\partial u_1}{\partial v_1}&\frac{\partial u_1}{\partial v_2}&\cdots&\frac{\partial u_1}{\partial v_n}\\ \frac{\partial u_2}{\partial v_1}&\frac{\partial u_2}{\partial v_2}&\cdots&\frac{\partial u_2}{\partial v_n}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial u_m}{\partial v_1}&\frac{\partial u_m}{\partial v_2}&\cdots&\frac{\partial u_m}{\partial v_n} \end{bmatrix}\] 若是爲列優先,則爲上面矩陣的轉置。
- 矩陣 \(m\times n\) 階矩陣)對標量的偏導數
\[\frac{\partial \mathbf U}{\partial v}=\begin{bmatrix} \frac{\partial U_{1,1}}{\partial v}&\frac{\partial U_{1,2}}{\partial v}&\cdots&\frac{\partial U_{1,n}}{\partial v}\\ \frac{\partial U_{2,1}}{\partial v}&\frac{\partial U_{2,2}}{\partial v}&\cdots&\frac{\partial U_{2,n}}{\partial v}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial U_{m,1}}{\partial v}&\frac{\partial U_{m,2}}{\partial v}&\cdots&\frac{\partial U_{m,n}}{\partial v} \end{bmatrix}\]
- 對於矩陣的跡,有下列偏導數成立:
\[\frac{\partial [tr(f(\mathbf X))]}{\partial \mathbf X }=(f^{\prime}(\mathbf X))^{T}\] \[\frac{\partial [tr(\mathbf A\mathbf X\mathbf B)]}{\partial \mathbf X }=\mathbf A^{T}\mathbf B^{T} \] \[\frac{\partial [tr(\mathbf A\mathbf X^{T}\mathbf B)]}{\partial \mathbf X }=\mathbf B\mathbf A \] \[\frac{\partial [tr(\mathbf A\otimes\mathbf X )]}{\partial \mathbf X }=tr(\mathbf A)\mathbf I\] \[\frac{\partial [tr(\mathbf A\mathbf X \mathbf B\mathbf X)]}{\partial \mathbf X }=\mathbf A^{T}\mathbf X^{T}\mathbf B^{T}+\mathbf B^{T}\mathbf X \mathbf A^{T} \] \[\frac{\partial [tr(\mathbf X^{T} \mathbf B\mathbf X \mathbf C)]}{\partial \mathbf X }=(\mathbf B^{T}+\mathbf B)\mathbf X \mathbf C \mathbf C^{T} \] \[\frac{\partial [tr(\mathbf C^{T}\mathbf X^{T} \mathbf B\mathbf X \mathbf C)]}{\partial \mathbf X }=\mathbf B\mathbf X \mathbf C +\mathbf B^{T}\mathbf X \mathbf C^{T} \] \[\frac{\partial [tr(\mathbf A\mathbf X \mathbf B\mathbf X^{T} \mathbf C)]}{\partial \mathbf X }= \mathbf A^{T}\mathbf C^{T}\mathbf X\mathbf B^{T}+\mathbf C \mathbf A \mathbf X \mathbf B\] \[\frac{\partial [tr((\mathbf A\mathbf X\mathbf B+\mathbf C)(\mathbf A\mathbf X\mathbf B+\mathbf C))]}{\partial \mathbf X }= 2\mathbf A ^{T}(\mathbf A\mathbf X\mathbf B+\mathbf C)\mathbf B^{T}\]
假 \(\mathbf U= f(\mathbf X)\) 是關 \(\mathbf X\) 的矩陣值函數 \(f:\mathbb R^{m\times n}\rightarrow \mathbb R^{m\times n}\) ), \(g(\mathbf U)\) 是關 \(\mathbf U\) 的實值函數 $g:\mathbb R^{m\times n}\rightarrow \mathbb R $ ),則下面鏈式法則成立:
\[\frac{\partial g(\mathbf U)}{\partial \mathbf X}= \left(\frac{\partial g(\mathbf U)}{\partial x_{i,j}}\right)_{m\times n}=\begin{bmatrix} \frac{\partial g(\mathbf U)}{\partial x_{1,1}}&\frac{\partial g(\mathbf U)}{\partial x_{1,2}}&\cdots&\frac{\partial g(\mathbf U)}{\partial x_{1,n}}\\ \frac{\partial g(\mathbf U)}{\partial x_{2,1}}&\frac{\partial g(\mathbf U)}{\partial x_{2,2}}&\cdots&\frac{\partial g(\mathbf U)}{\partial x_{2,n}}\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial g(\mathbf U)}{\partial x_{m,1}}&\frac{\partial g(\mathbf U)}{\partial x_{m,2}}&\cdots&\frac{\partial g(\mathbf U)}{\partial x_{m,n}}\\ \end{bmatrix}\\ =\left(\sum_{k}\sum_{l}\frac{\partial g(\mathbf U)}{\partial u_{k,l}}\frac{\partial u_{k,l}}{\partial x_{i,j}}\right)_{m\times n}=\left(tr\left[\left(\frac{\partial g(\mathbf U)}{\partial \mathbf U}\right)^{T}\frac{\partial \mathbf U}{\partial x_{i,j}}\right]\right)_{m\times n}\]工具
機率論與隨機過程
1、機率與分佈
1.1 條件機率與獨立事件
條件機率:已 \(A\) 事件發生的條件 \(B\) 發生的機率,記 \(P(B\mid A)\) ,它等於事 \(AB\) 的機率相對於事 \(A\) 的機率,即:
\[P(B\mid A)=\frac {P(AB)}{P(A)}\] 其中必須 \(P(A) \gt 0\)學習
- 條件機率分佈的鏈式法則:對 \(n\) 個隨機變 \(\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n\) ,有:
\[P(\mathbf x_1,\mathbf x_2,\cdots,\mathbf x_n)=P(\mathbf x_1)\prod_{i=2}^{n}P(\mathbf x_i \mid \mathbf x_1,\cdots,\mathbf x_{i-1})\]
- 兩個隨機變 \(\mathbf x,\mathbf y\) 相互獨立的數學描述:
\[\forall x\in \mathcal X,\forall y\in \mathcal Y, P(\mathbf x=x,\mathbf y=y)=P(\mathbf x=x)P(\mathbf y=y)\] 記做 \(\mathbf x \bot \mathbf y\)
兩個隨機變 \(\mathbf x,\mathbf y\) 關於隨機變 \(\mathbf z\) 條件獨立的數學描述:
\[\forall x\in \mathcal X,\forall y\in \mathcal Y,\forall z \in\mathcal Z\\ P(\mathbf x=x,\mathbf y=y\mid \mathbf z=z)=P(\mathbf x=x\mid \mathbf z=z)P(\mathbf y=y\mid \mathbf z=z)\] 記做 \(\mathbf x \bot \mathbf y \mid \mathbf z\)優化
1.2 聯合機率分佈
- 定 \({\mathbf x}\) \({\mathbf y}\) 的聯合分佈爲:
\[P(a,b)=P\{{\mathbf x} \le a, {\mathbf y} \le b\}, - \infty \lt a,b \lt + \infty \]
- \({\mathbf x}\) 的分佈能夠從聯合分佈中獲得:
\[ P_{\mathbf x}(a)=P\{{\mathbf x} \le a\}=P\{{\mathbf x} \le a, {\mathbf y} \le \infty\}=P(a,\infty), - \infty \lt a \lt + \infty \] 相似的 \({\mathbf y}\) 的分佈能夠從聯合分佈中獲得:
\[ P_{\mathbf y}(b)=P\{{\mathbf y} \le b\}=P\{{\mathbf x} \le \infty, {\mathbf y} \le b\}=P(\infty,b), - \infty \lt b \lt + \infty \]
- \({\mathbf x}\) \({\mathbf y}\) 都是離散隨機變量時,定 \({\mathbf x}\) \({\mathbf y}\) 的聯合機率質量函數爲 \(p(x,y)=P\{{\mathbf x}=x,{\mathbf y}=y\}\)
\({\mathbf x}\) \({\mathbf y}\) 的機率質量函數分佈爲:
\[p_{\mathbf x}(x)=\sum_{y \;:\;p(x,y) \gt 0}p(x,y) \\ p_{\mathbf y}(y)=\sum_{x \;:\;p(x,y) \gt 0}p(x,y)\]
- \({\mathbf x}\) \({\mathbf y}\) 聯合地連續時,即存在函 \(p(x,y)\) ,使得對於全部的實數集 \(A\) \(B\) 知足:
\[P\{{\mathbf x} \in A, {\mathbf y} \in B\}=\int_B \int_A p(x,y) dx dy\] 則函 \(p(x,y)\) 稱 \({\mathbf x}\) \({\mathbf y}\) 的機率密度函數。
- 聯合分佈爲
\[P(a,b)=P\{{\mathbf x} \le a, {\mathbf y} \le b\}= \int_{-\infty}^{a} \int_{-\infty}^{b} p(x,y) dx dy\]
- \({\mathbf x}\) \({\mathbf y}\) 的機率密度函數以及分佈函數分別爲:
\[P_{\mathbf x}(a)=\int_{-\infty}^{a} \int_{-\infty}^{\infty} p(x,y) dx dy =\int_{-\infty}^{a} p_{\mathbf x}(x)dx\\ P_{\mathbf y}(b)=\int_{-\infty}^{\infty} \int_{-\infty}^{b} p(x,y) dx dy=\int_{-\infty}^{b} p_{\mathbf y}(y)dy\\ p_{\mathbf x}(x)=\int_{-\infty}^{\infty} p(x,y) dy\\ p_{\mathbf y}(y)=\int_{-\infty}^{\infty} p(x,y) dx\]
2、指望
- 指望:(是機率分佈的泛函,函數的函數)
- 離散型隨機變 \({\mathbf x}\) 的指望:
\[\mathbb E[{\mathbf x}]=\sum_{i=1}^{\infty}x_ip_i\]
- 連續性隨機變 \({\mathbf x}\) 的指望:
\[\mathbb E[{\mathbf x}]=\int_{-\infty}^{\infty}xp(x)dx\]
- 指望描述了隨機變量的平均狀況,衡量了隨機變 \({\mathbf x}\) 的均值
- 定理: \({\mathbf y}=g({\mathbf x})\) 均爲隨機變量 \(g(\cdot)\) 是連續函數
- \({\mathbf x}\) 爲離散型隨機變量, \({\mathbf y}\) 的指望存在,則:
\[\mathbb E[{\mathbf y}]=\mathbb E[g({\mathbf x})]=\sum_{i=1}^{\infty}g(x_i)p_i\]
\({\mathbf x}\) 爲連續型隨機變量, \({\mathbf y}\) 的指望存在,則:
\[\mathbb E[{\mathbf y}]=\mathbb E[g({\mathbf x})]=\int_{-\infty}^{\infty}g(x)p(x)dx\] 該定理的意義在於:當 \(\mathbb E({\mathbf y})\) 時,沒必要計算 \({\mathbf y}\) 的分佈,只須要利 \({\mathbf x}\) 的分佈便可。該定理能夠推廣至兩個或者兩個以上隨機變量的狀況。此時:
\[ \mathbb E[Z]=\mathbb E[g({\mathbf x},{\mathbf y})]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}g(x,y)p(x,y)dxdy\]編碼
上述公式也記作:
\[\mathbb E_{\mathbf x\sim P}[g(x)]=\sum_{x}g(x)p(x)\\ \mathbb E_{\mathbf x\sim P}[g(x)]=\int g(x)p(x)dx\\ \mathbb E_{\mathbf x,\mathbf y\sim P}[g(x)]\int g(x,y)p(x,y)dxdy\]spa
- 指望性質:
- 常數的指望就是常數自己
- 對常 \(C\) 有:
\[\mathbb E[C{\mathbf x}]=C\mathbb E[{\mathbf x}]\]
- 對兩個隨機變 \({\mathbf x},{\mathbf y}\) ,有:
\[\mathbb E[{\mathbf x}+{\mathbf y}]=\mathbb E[{\mathbf x}]+\mathbb E[{\mathbf y}]\]
- 對兩個相互獨立的隨機變量,有:
\[\mathbb E[{\mathbf x}{\mathbf y}]=\mathbb E[{\mathbf x}]\mathbb E[{\mathbf y}]\]
- 該結論能夠推廣到任意有限個相互獨立的隨機變量之積的狀況
3、方差
3.1 方差
- 對隨機變 \({\mathbf x}\) , \(\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])^{2}]\) 存在,則稱它 \({\mathbf x}\) 的方差,記 \(Var[{\mathbf x}]\) \({\mathbf x}\) 的標準差爲方差的開平方。即:
\[Var[{\mathbf x}]=\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])^{2}] \\ \sigma=\sqrt{Var[{\mathbf x}]}\]
- 方差度量了隨機變量 \({\mathbf x}\) 與指望值偏離的程度,衡量了 \({\mathbf x}\) 取值分散程度的一個尺度。
- 因爲絕對值 \(|{\mathbf x}-\mathbb E[{\mathbf x}] |\) 帶有絕對值,不方便運算,所以採用平方來計算。又由於 \(|{\mathbf x}-\mathbb E[{\mathbf x}]|^2\) 是一個隨機變量,所以對它取指望,即得 \({\mathbf x}\) 與指望值偏離的均值
- 根據定義可知:
\[Var[{\mathbf x}]=\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])^{2}]=\mathbb E[{\mathbf x}^{2}]-(\mathbb E[{\mathbf x}])^{2}\\ Var [f(\mathbf x)]=\mathbb E[(f(\mathbf x)-\mathbb E[f(\mathbf x)])^{2}]\]
- 對於一個指望 \(\mu\) ,方差 \(\sigma^{2},\sigma \ne 0\) 的隨機變 \({\mathbf x}\) ,隨機變 \({\mathbf x}^{*}=\frac {{\mathbf x}-\mu}{\sigma}\) 的數學指望爲0,方差爲1。 \({\mathbf x}^{\ast}\) \({\mathbf x}\) 的標準化變量
- 方差的性質:
- 常數的方差恆爲0
- 對常 \(C\) \(Var[C{\mathbf x}]=C^{2}Var[{\mathbf x}]\)
- 對兩個隨機變 \({\mathbf x},{\mathbf y}\) ,有 $Var[{\mathbf x}+{\mathbf y}]=Var[{\mathbf x}] +Var[{\mathbf y}] +2\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])({\mathbf y}-\mathbb E[{\mathbf y}])] $
- 當 \({\mathbf x}\) 和 \({\mathbf y}\) 相互獨立時,有 $Var[{\mathbf x}+{\mathbf y}] = Var[{\mathbf x}] +Var[{\mathbf y}] $ 。能夠推廣至任意有限多個相互獨立的隨機變量之和的狀況
- \(Var [{\mathbf x}] =0\) 的充要條件 \({\mathbf x}\) 以機率1取常數
3.2 協方差與相關係數
- 對於二維隨機變 \(({\mathbf x},{\mathbf y})\) ,能夠討論描 \({\mathbf x}\) \({\mathbf y}\) 之間相互關係的數字特徵。
- 定義 $\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])({\mathbf y}-\mathbb E [{\mathbf y}])] $ 爲隨機變量 \({\mathbf x}\) 與 \({\mathbf y}\) 的協方差,記做 $ Cov[ {\mathbf x},{\mathbf y}]=\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])({\mathbf y}-\mathbb E [{\mathbf y}])]$ 。
- 定義 \(\rho_{{\mathbf x}{\mathbf y}}=\frac {Cov[{\mathbf x},{\mathbf y}]}{\sqrt{Var[{\mathbf x}] }\sqrt{Var[{\mathbf y}]}}\) 爲隨機變量 \({\mathbf x}\) 與 \({\mathbf y}\) 的相關係數,它是協方差的歸一化。
- 由定義可知:
\[Cov[ {\mathbf x},{\mathbf y}] =Cov[ {\mathbf y},{\mathbf x}] \\ Cov [{\mathbf x},{\mathbf x}] =Var [{\mathbf x}] \\ Var [{\mathbf x}+{\mathbf y}] =Var [{\mathbf x}] +Var [{\mathbf y}] +2Cov [{\mathbf x},{\mathbf y}] \]
- 協方差的性質:
- $Cov [a{\mathbf x},b{\mathbf y}] =abCov [{\mathbf x},{\mathbf y}] $ , \(a,b\) 爲常數
- $Cov[ {\mathbf x}_1+{\mathbf x}_2,{\mathbf y} ]=Cov [{\mathbf x}_1,{\mathbf y}] +Cov [{\mathbf x}_2,{\mathbf y}] $
- \(Cov [f(\mathbf x),g(\mathbf y)]=\mathbb E[(f(\mathbf x)-\mathbb E[f(\mathbf x)])(g(\mathbf y)-\mathbb E[g(\mathbf y)])]\)
- \(\rho[f(\mathbf x),g(\mathbf y)]=\frac {Cov[f(\mathbf x),g(\mathbf y)]}{\sqrt{Var[f(\mathbf x)] }\sqrt{Var[g(\mathbf y)]}}\)
- 協方差的物理意義:
- 協方差的絕對值越大,說明兩個隨機變量都遠離它們的均值。
- 協方差若是爲正,則說明兩個隨機變量同時趨向於取較大的值;若是爲負,則說明一個隨變量趨向於取較大的值,另外一個隨機變量趨向於取較小的值
- 兩個隨機變量的獨立性能夠導出協方差爲零。可是兩個隨機變量的協方差爲零沒法導出獨立性
- 由於獨立性也包括:沒有非線性關係。有可能兩個隨機變量是非獨立的,可是協方差爲零
- 假設隨機變 \(\mathbf x\sim U[-1,1]\) 。定義隨機變 \(\mathbf s\) 的機率分佈函數爲:
\[P(\mathbf s=1)= \frac 12P(\mathbf s=-1)= \frac 12 \] 定義隨機變 \(\mathbf y=\mathbf {sx}\) ,則隨機變 \(\mathbf x,\mathbf y\) 是非獨立的,可是有 \(Cov[\mathbf x,\mathbf y]=0\)
- 相關係數的物理意義:考慮以隨機變 \({\mathbf x}\) 的線性函 \(a+b{\mathbf x}\) 來近似表 \({\mathbf y}\) 。以均方偏差
\[e=\mathbb E[({\mathbf y}-(a+b{\mathbf x}))^{2}]=\mathbb E[{\mathbf y}^{2}] +b^{2}\mathbb E[{\mathbf x}^{2}] +a^{2}-2b\mathbb E[{\mathbf x}{\mathbf y}] +2ab\mathbb E[{\mathbf x}] -2a\mathbb E [{\mathbf y}] \] 來衡量 \(a+b{\mathbf x}\) 近似表 \({\mathbf y}\) 的好壞程度 \(e\) 越小表示近似程度越高。爲求得
最好的近似,則 \(a,b\) 分別取偏導數,獲得:
\[a_0=\mathbb E[{\mathbf y}] -b_0\mathbb E[{\mathbf x}] =\mathbb E[{\mathbf y}] -\mathbb E[{\mathbf x}] \frac{Cov [{\mathbf x},{\mathbf y}]}{Var [{\mathbf x}] }\\ b_0=\frac{Cov[ {\mathbf x},{\mathbf y}] }{Var[ {\mathbf x}] }\\ \min(e)=\mathbb E[({\mathbf y}-(a_0+b_0{\mathbf x}))^{2}]=(1-\rho^{2}_{{\mathbf x}{\mathbf y}})Var [{\mathbf y}] \] 所以有如下定理:
- \(\rho_{{\mathbf x}{\mathbf y}}=0\) 時, \({\mathbf x}\) \({\mathbf y}\) 不相關。
- 不相關是就線性關係來說的,而相互獨立是通常關係而言的。
- 相互獨立必定不相關;不相關則未必獨立。
3.3 協方差矩陣
- 矩: \({\mathbf x}\) \({\mathbf y}\) 是隨機變量
- 若 \(\mathbb E[{\mathbf x}^{k}] ,k=1,2,\cdots\) 存在,則稱它爲 \({\mathbf x}\) 的 \(k\) 階原點矩,簡稱 \(k\) 階矩
- 若 \(\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])^{k}] ,k=2,3,\cdots\) 存在,則稱它爲 \({\mathbf x}\) 的 \(k\) 階中心矩
- 若 \(\mathbb E[{\mathbf x}^{k}{\mathbf y}^{l}] ,k,l=1,2,\cdots\) 存在,則稱它爲 \({\mathbf x}\) 和 \({\mathbf y}\) 的 $ k+l$ 階混合矩
- 若 \(\mathbb E[({\mathbf x}-\mathbb E[{\mathbf x}])^{k}({\mathbf y}-\mathbb E[{\mathbf y}])^{l}] ,k,l=1,2,\cdots\) 存在,則稱它爲 \({\mathbf x}\) 和 \({\mathbf y}\) 的 \(k+l\) 階混合中心矩
所以指望是一階原點矩,方差是二階中心矩,協方差是二階混合中心矩
- 協方差矩陣:二維隨機變 \(({\mathbf x}_1,{\mathbf x}_2)\) 有四個二階中心矩(設他們都存在),記做:
\[\begin{align} c_{11}&=\mathbb E[({\mathbf x}_1-\mathbb E[{\mathbf x}_1])^{2}] \\ c_{12}&=\mathbb E[({\mathbf x}_1-\mathbb E[{\mathbf x}_1])( {\mathbf x}_2-\mathbb E[{\mathbf x}_2]) ] \\ c_{21}&=\mathbb E[( {\mathbf x}_2-\mathbb E[{\mathbf x}_2])({\mathbf x}_1-\mathbb E[{\mathbf x}_1] ) ] \\ c_{22}&=\mathbb E[({\mathbf x}_2-\mathbb E[{\mathbf x}_2])^{2}] \\ \end{align}\] 這個矩陣稱做隨機變 \(({\mathbf x}_1,{\mathbf x}_2)\) 的協方差矩陣。
\(n\) 維隨機變 \(({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)\) 的二階混合中心 \(c_{ij}=Cov [{\mathbf x}_i,{\mathbf x}_j] =\mathbb E[({\mathbf x}_i-\mathbb E[{\mathbf x}_i] )( {\mathbf x}_j-\mathbb E[{\mathbf x}_j] ) ] ,i,j=1,2,\cdots,n\) ,都存在,則稱矩陣
\[\mathbf C= \begin{bmatrix} c_{11} & c_{12} & \cdots & c_{1n} \\ c_{21} & c_{22} & \cdots & c_{2n} \\ \vdots &\vdots &\ddots &\vdots \\ c_{n1} & c_{n2} & \cdots & c_{nn} \\ \end{bmatrix}\] \(n\) 維隨機變 \(({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)\) 的協方差矩陣。
因爲 \(c_{ij}=c_{ji}, i\ne j, i,j=1,2,\cdots,n\) 所以協方差矩陣是個對稱陣
通 \(n\) 維隨機變量的分佈是不知道的,或者太複雜以至數學上不容易處理。所以實際中協方差矩陣很是重要。
4、大數定律及中心極限定理
4.1 切比雪夫不等式
切比雪夫不等式:隨機變 \({\mathbf x}\) 具備期 \(\mathbb E[{\mathbf x}] =\mu\) ,方 \(Var({\mathbf x})=\sigma^{2}\) ,對於任意正 \(\varepsilon\) ,不等式
\[P\{|{\mathbf x}-\mu| \ge \varepsilon\} \le \frac {\sigma^{2}}{\varepsilon^{2}}\] 成立
其意義是:對於距 $\mathbb E[{\mathbf x}] $ 足夠遠的地方(距離大於等 \(\varepsilon\) ),事件出現的機率是小於等 $ \frac {\sigma^{2}}{\varepsilon^{2}}$ ;即事件出如今區 \([\mu-\varepsilon , \mu+\varepsilon]\) 的機率大 \(1- \frac {\sigma^{2}}{\varepsilon^{2}}\)
該不等式給出了隨機變 \({\mathbf x}\) 在分佈未知的狀況下,事 \(\{|{\mathbf x}-\mu| \le \varepsilon\}\) 的下限估計( \(P\{|{\mathbf x}-\mu| \lt 3\sigma\} \ge 0.8889\)
證實:
\[P\{|{\mathbf x}-\mu| \ge \varepsilon\}=\int_{|x-\mu| \ge \varepsilon}p(x)dx \le \int_{|x-\mu| \ge \varepsilon} \frac{|x-\mu|^{2}}{\varepsilon^{2}}p(x)dx \\ \le \frac {1}{\varepsilon^{2}}\int_{-\infty}^{\infty}(x-\mu)^{2}p(x)dx=\frac{\sigma^{2}}{\varepsilon^{2}}\]
切比雪夫不等式的特殊狀況:設隨機變 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots\) 相互獨立,且具備相同的數學指望和方差 $ \mathbb E[{\mathbf x}_k] =\mu, Var[{\mathbf x}_k] =\sigma^{2},k=1,2,\cdots$ 。做 \(n\) 個隨機變量的算術平均 $ \overline {\mathbf x} =\frac {1}{n} \sum _{k=1}^{n}{\mathbf x}_k$ ,則對於任意正 $ \varepsilon$ 有:
\[\lim_{n\rightarrow \infty}P\{|\overline {\mathbf x}-\mu| \lt \varepsilon\}=\lim_{n\rightarrow \infty}P\{|\frac{1}{n}\sum_{k=1}^{n}{\mathbf x}_k-\mu| \lt \varepsilon\} =1\] 證實:
\[\mathbb E[\frac{1}{n}\sum_{k=1}^{n}{\mathbf x}_k]=\mu\\ Var[\frac{1}{n}\sum_{k=1}^{n}{\mathbf x}_k]=\frac{\sigma^{2}}{n}\] 有切比雪夫不等式,以 \(n\) 趨於無窮時,能夠證實。詳細過程省略
4.2 大數定理
- 依機率收斂: \({\mathbf y}_1,{\mathbf y}_2,\cdots,{\mathbf y}_n,\cdots\) 是一個隨機變量序列 \(a\) 是一個常數。若對於任意正 $ \varepsilon$ 有 \(\lim_{n\rightarrow \infty}P\{|{\mathbf y}_{n}-a| \le \varepsilon \}=1\) ,則稱序 \({\mathbf y}_1,{\mathbf y}_2,\cdots,{\mathbf y}_n,\cdots\) 依機率收斂 \(a\) 。記做 \({\mathbf y}_{n} \stackrel{P}{\rightarrow} a\)
- 依機率收斂的兩個含義:
- 收斂:代表這是一個隨機變量序列,而不是某個隨機變量;且序列是無限長,而不是有限長
- 依機率:代表序列無窮遠處的隨機變量 \({\mathbf y}_{\infty}\) 的分佈規律爲:絕大部分分佈於點 \(a\) ,極少數位於 \(a\) 以外。且分佈於 \(a\) 以外的事件發生的機率之和爲0
- 大數定理一:設隨機變 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots\) 相互獨立,且具備相同的數學指望和方差 $ \mathbb E[{\mathbf x}_k] =\mu, Var[{\mathbf x}_k] =\sigma^{2},k=1,2,\cdots$ 。則序列 $ \overline {\mathbf x} =\frac {1}{n} \sum _{k=1}^{n}{\mathbf x}_k$ 依機率收斂 \(\mu\) , \(\overline {\mathbf x} \stackrel{P}{\rightarrow} \mu\)
- 這裏並無要求隨機變量 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots\) 同分布
- 伯努利大數定理: \(n_A\) \(n\) 次獨立重複實驗中事 \(A\) 發生的次數 \(p\) 是事 \(A\) 在每次試驗中發生的機率。則對於任意正 $ \varepsilon$ 有:
\[\lim_{n \rightarrow \infty}P\{|\frac{n_{A}}{n}-p| \lt \varepsilon\}=1 \\ or: \quad \lim_{n \rightarrow \infty}P\{|\frac{n_{A}}{n}-p| \ge \varepsilon\}=0\]
- 即:當獨立重複實驗執行很是大的次數時,事件 \(A\) 發生的頻率逼近於它的機率
- 辛欽定理:設隨機變 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots\) 相互獨立,服從同一分佈,且具備相同的數學指望 $ \mathbb E[{\mathbf x}_k] =\mu,k=1,2,\cdots$ 。則對於任意正 $ \varepsilon$ 有:
\[\lim_{n\rightarrow \infty}P\{|\frac{1}{n}\sum_{k=1}^{n}{\mathbf x}_k-\mu| \lt \varepsilon\} =1\]
- 這裏並無要求隨機變量 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots\) 的方差存在
- 伯努利大數定理是親欽定理的特殊狀況。
4.3 中心極限定理
- 獨立同分布的中心極限定理:設隨機變 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n\) 獨立同分布,且具備數學指望和方差 \(\mathbb E[{\mathbf x}_k] =\mu, Var[{\mathbf x}_k] =\sigma^{2} \gt 0,k=1,2,\cdots\) ,則隨機變量之 \(\overline {S{\mathbf x}_n}=\sum_{k=1}^{n} {\mathbf x}_k\) 的標準變化量:
\[{\mathbf y}_n=\frac{\overline {S{\mathbf x}_n}-\mathbb E[\overline {S{\mathbf x}_n}] }{\sqrt{Var[\overline {S{\mathbf x}_n}] }}=\frac{\overline {S{\mathbf x}_n}-n\mu}{\sqrt n \sigma}\] 的機率分佈函 \(F_n(x)\) 對於任 \(x\) 知足:
\[\lim_{n\rightarrow \infty}F_n(x)=\lim_{n\rightarrow \infty}P\{{\mathbf y}_n \le x\}\\ =\lim_{n\rightarrow \infty}P\{\frac{\sum_{k=1}^{n} {\mathbf x}_k-n\mu}{\sqrt n \sigma} \le x\}\\ = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}}e^{-t^{2}/2}dt=\Phi(x)\]
- 其物理意義爲:均值方差爲 \(\mu,\sigma^{2}\) 的獨立同分布的隨機變量 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n\) 之和 \(\overline {S{\mathbf x}_n}=\sum_{k=1}^{n} {\mathbf x}_k\) 的標準變化量 \({\mathbf y}_n\) ,當 \(n\) 充分大時,其分佈近似與標準正態分佈。即 \(\overline {S{\mathbf x}_n}=\sum_{k=1}^{n} {\mathbf x}_k\) 在 \(n\) 充分大時,其分佈近似於 \(N(n\mu,n\sigma^{2})\)
- 通常狀況下,很難求出 \(n\) 個隨機變量之和的分佈函數。所以當 \(n\) 充分大時,能夠經過正態分佈來作理論上的分析或者計算。
- Liapunov定理:設隨機變 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots\) 相互獨立,具備數學指望和方差 \(\mathbb E[{\mathbf x}_k] =\mu_k,Var[{\mathbf x}_k] =\sigma_k^{2} \gt 0, k=1,2,\cdots\) ,記 \(B_n^{2}=\sum_{k=1}^{n}\sigma_k^{2}\) 。
若存在正 \(\delta\) ,使得 \(n \rightarrow \infty\) 時,
\[\frac{1}{B_n^{2+\delta}}\sum_{k=1}^{n}\mathbb E [|{\mathbf x}_k-\mu_k|^{2+\delta}] \rightarrow 0\] 則隨機變量之 \(\overline {S{\mathbf x}_n}=\sum_{k=1}^{n} {\mathbf x}_k\) 的標準變化量:
\[Z_n=\frac{\overline {S{\mathbf x}_n}-\mathbb E[\overline {S{\mathbf x}_n}] }{\sqrt{Var [\overline {S{\mathbf x}_n}] }}=\frac{\overline {S{\mathbf x}_n}-\sum_{k=1}^{n}\mu_k}{B_n}\] 的機率分佈函 \(F_n(x)\) 對於任 \(x\) 知足:
\[\lim_{n\rightarrow \infty}F_n(x)=\lim_{n\rightarrow \infty}P\{Z_n \le x\}\\ =\lim_{n\rightarrow \infty}P\{\frac{\sum_{k=1}^{n} {\mathbf x}_k-\sum_{k=1}^{n}\mu_k}{B_n} \le x\}\\ = \int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}}e^{-t^{2}/ 2}dt=\Phi(x)\]
- 其物理意義爲:相互獨立的隨機變量 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots\) 之和 \(\overline {S{\mathbf x}_n}=\sum_{k=1}^{n} {\mathbf x}_k\) 的衍生隨機變量序 \(Z_n=\frac{\overline {S{\mathbf x}_n}-\sum_{k=1}^{n}\mu_k}{B_n}\) ,當 \(n\) 充分大時,其分佈近似與標準正態分佈。
- 這裏並不要求 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n,\cdots\) 同分布
- Demoiver-Laplace定理:設隨機變量序 \(\eta_n,n=1,2,...\) 服從參數 \(n, p(0 \lt p \lt 1)\) 的二項分佈,則對於任 \(x\) ,有:
\[\lim_{n\rightarrow \infty}P\{\frac{\eta_n-np}{\sqrt{np(1-p)}} \le x\}=\int_{-\infty}^{x} \frac{1}{\sqrt{2\pi}}e^{-t^{2}\mid 2}dt=\Phi(x)\]
- 該定理代表,正態分佈是二項分佈的極限分佈。當 \(n\) 充分大時,能夠利用正態分佈來計算二項分佈的機率。
5、不肯定性來源
- 機器學習中不肯定性有三個來源:
- 模型自己固有的隨機性。如量子力學中的粒子動力學方程。
- 不徹底的觀測。即便是肯定性系統,當沒法觀測全部驅動變量時,結果也是隨機的。
- 不徹底建模。有時必須放棄一些觀測信息。
- 如機器人建模中:雖然能夠精確觀察機器人周圍每一個對象的位置;但在預測這些對象未來的位置時,對空間進行了離散化。則位置預測將帶有不肯定性。
6、常見幾率分佈
6.1 均勻分佈
- 離散隨機變量的均勻分佈:假 \(\mathbf x\) \(k\) 個取值 \(x_1,x_2,\cdots,x_k\) ,則均勻分佈的機率密度函數(
probability mass function:PMF
)爲:
\[P(\mathbf x=x_i) =\frac 1k,\quad i=1,2,\cdots,k\]
- 連續隨機變量的均勻分佈:假 \(\mathbf x\) 在
[a,b]
上均勻分佈,則其機率密度函數(probability density function:PDF
)爲:
\[p(\mathbf x=x)=\begin{cases} 0,&x\notin [a,b]\\ \frac{1}{b-a},&x \in [a,b]\\ \end{cases} \]
6.2 二項分佈
- 伯努利分佈(二項分佈):參數 \(\phi\in [0,1]\) 。隨機變 \(\mathbf x \in \{0,1\}\)
- 機率分佈函數爲:
\[P(\mathbf x=x)=\phi^{x}(1-\phi)^{1-x}\;,x \in \{0,1\}\]
- 指望: \(\mathbb E_{\mathbf x}[x]=\phi\)
- 方差: \(Var_{\mathbf x}[x]=\phi(1-\phi)\)
categorical
分佈:它是二項分佈的推廣,也稱做multinoulli
分佈。假設隨機變 \(\mathbf x \in \{1,2,\cdots,K\}\) ,其機率分佈函數爲:
\[P(\mathbf x=1)=\theta_1\\ P(\mathbf x=2)=\theta_2\\ \vdots\\ P(\mathbf x=K-1)=\theta_{K-1}\\ P(\mathbf x=K)=1-\sum_{i=1}^{K-1}\theta_i \\\] 其 \(\theta_i\) 爲參數,它滿 \(\theta_i \in [0,1]\) , \(\sum_{i=1}^{K-1}\theta_i \in [0,1]\) 。
6.3 高斯分佈
6.3.1 一維正態分佈
- 正態分佈的機率密度函數爲:
\[p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^{2}/ (2\sigma^{2})}, -\infty \lt x \lt \infty\] 其 $\mu,\sigma(\sigma \gt 0) $ 爲常數。
- 若隨機變量 \({\mathbf x}\) 的機率密度函數如上所述,則稱 \({\mathbf x}\) 服從參數爲 \(\mu,\sigma\) 的正態分佈或者高斯分佈,記做 \({\mathbf x} \sim N(\mu,\sigma^{2})\) 。
- 特別的,當 \(\mu=0,\sigma=1\) 時,稱爲標準正態分佈,其機率密度函數記做 \(\varphi(x)\) , 分佈函數記做 \(\Phi(x)\)
- 爲了計算方便,有時也記做:
\[\mathcal N(x;\mu,\beta^{-1}) =\sqrt{\frac{\beta}{2\pi}}\exp\left(-\frac{1}{2}\beta(x-\mu)^{2}\right)\] 其 \(\beta \in (0,\infty)\)
- 正態分佈是不少應用中的合理選擇。若是某個隨機變量取值範圍是實數,且對它的機率分佈一無所知,一般會假設它服從正態分佈。有兩個緣由支持這一選擇:
- 建模的任務的真實分佈一般都確實接近正態分佈。中心極限定理代表,多個獨立隨機變量的和近似正態分佈。
- 在具備相同方差的全部可能的機率分佈中,正態分佈的熵最大(即不肯定性最大)。
- 正態分佈的機率密度函數性質:
- \({\mathbf x} \sim N(\mu,\sigma^{2})\) 則 \(\frac{{\mathbf x}-\mu}{\sigma} \sim N(0,1)\)
- 有限個相互獨立的正態隨機變量的線性組合仍然服從正態分佈。
- 正態分佈的指望就 \(\mu\) ,方差就 \(\sigma^{2}\)
- 若隨機變 \({\mathbf x}_i \sim N(\mu_i,\sigma_i^{2}),i=1,2,\cdots,n\) 且它們相互獨立,則它們的線性組合:
\(C_1{\mathbf x}_1+C_2{\mathbf x}_2+\cdots+C_n{\mathbf x}_n\) 其中 \(C_1,C_2,\cdots,C_n\) 不全是爲0的常數)仍然服從正態分佈,且:
\[C_1{\mathbf x}_1+C_2{\mathbf x}_2+\cdots+C_n{\mathbf x}_n \sim N(\sum_{i=1}^{n}C_i\mu_i,\sum_{i=1}^{n}C_i^{2}\sigma_i^{2})\]
6.3.2 多維正態分佈
- 二維正態隨機變 \(({\mathbf x}_1,{\mathbf x}_2)\) 的機率密度爲:
\[p(x_1,x_2)=\\ \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^{2}}}\exp\{\frac{-1}{2(1-\rho^{2})}[\frac{(x_1-\mu_1)^{2}}{\sigma_1^{2}}-2\rho\frac{(x_1-\mu_1)(x_2-\mu_2)}{\sigma_1\sigma_2}+\frac{(x_2-\mu_2)^{2}}{\sigma_2^{2}}]\}\] 能夠計算出:
\[p_{\mathbf x}(x)=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-(x-\mu_1)^{2}/ (2\sigma_1^{2})}, -\infty \lt x \lt \infty \\ p_{\mathbf y}(y)=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-(y-\mu_2)^{2}/ (2\sigma_2^{2})}, -\infty \lt y \lt \infty\\ \mathbb E[{\mathbf x}] =\mu_1 \\ \mathbb E[{\mathbf y}] =\mu_2 \\ Var[{\mathbf x}] =\sigma_1^{2} \\ Var[{\mathbf y}]=\sigma_2^{2}\\ Cov[{\mathbf x},{\mathbf y}]=\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}(x-\mu_1)(y-\mu_2)p(x,y)dxdy=\rho \sigma_1\sigma_2\\ \rho_{{\mathbf x}{\mathbf y}}=\rho\]
- 引入矩陣:
\[\mathbf{\vec {\mathbf x}}=\begin{bmatrix} x_1 \\ x_2 \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2 \end{bmatrix}\\ \mathbf{\Sigma}=\begin{bmatrix} c_{11} &c_{12}\\ c_{21} &c_{22} \end{bmatrix} = \begin{bmatrix} \sigma_1^{2} & \rho \sigma_1 \sigma_2 \\ \rho \sigma_1 \sigma_2 & \sigma_2^{2} \end{bmatrix}\] \(\mathbf \Sigma\) \(({\mathbf x}_1,{\mathbf x}_2)\) 的協方差矩陣。其行列式 \(\det \mathbf{\Sigma} =\sigma_1^{2}\sigma_2^{2}(1-\rho^{2})\) ,其逆矩陣爲:
\[\mathbf{\Sigma}^{-1}=\frac{1}{\det\mathbf \Sigma}\begin{bmatrix} \sigma_2^{2} & -\rho \sigma_1 \sigma_2 \\ -\rho \sigma_1 \sigma_2 & \sigma_1^{2} \end{bmatrix}\] 於 \(({\mathbf x}_1,{\mathbf x}_2)\) 的機率密度函數能夠寫 \(( \mathbf {\vec {\mathbf x}}- \mathbf {\vec \mu})^{T}\) 表示矩陣的轉置:
\[p(x_1,x_2)=\frac{1}{(2\pi)(\det \mathbf \Sigma)^{1/ 2}}\exp\{- \frac 12 ( \mathbf {\vec {\mathbf x}}- \mathbf {\vec \mu})^{T} \mathbf \Sigma^{-1}( \mathbf {\vec {\mathbf x}}- \mathbf {\vec \mu})\}\] 其中均 \(\mu_1,\mu_2\) 決定了曲面的位置(本例中均值都爲0)。標準 \(\sigma_1,\sigma_2\) 決定了曲面的陡峭程度(本例中方差都爲1)。 \(\rho\) 決定了協方差矩陣的形狀,從而決定了曲面的形狀
- \(\rho=0\) 時,協方差矩陣對角線非零,其餘位置均爲零。此時表示隨機變量之間不相關。此時的聯合分佈機率函數形狀以下圖所示,曲面在 \(z=0\) 平面的截面是個圓形:

- \(\rho=0.5\) 時,協方差矩陣對角線非零,其餘位置均爲零。此時表示隨機變量之間相關。此時的聯合分佈機率函數形狀以下圖所示,曲面在 \(z=0\) 平面的截面是個橢圓,至關於圓形沿着直線 \(y=x\) 方向壓縮 :
- \(\rho=1\) 時,協方差矩陣對角線非零,其餘位置均爲零。此時表示隨機變量之間徹底相關。此時的聯合分佈機率函數形狀爲:曲面在 \(z=0\) 平面的截面是直線 \(y=x\) ,至關於圓形沿着直線 \(y=x\) 方向壓縮成一條直線 。因爲 \(\rho=1\) 會致使除數爲 0,所以這裏給出 \(\rho=0.9\) :
- 多維正態隨機變 \(({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)\) ,引入列矩陣:
\[\mathbf{\vec {\mathbf x}}=\begin{bmatrix} x_1 \\ x_2 \\ \vdots\\ x_n \end{bmatrix} \quad \mathbf{\vec \mu}=\begin{bmatrix} \mu_1 \\ \mu_2\\ \vdots\\ \mu_n \end{bmatrix}=\begin{bmatrix} \mathbb E[{\mathbf x}_1] \\ \mathbb E[{\mathbf x}_2] \\ \vdots\\ \mathbb E[{\mathbf x}_n] \end{bmatrix}\] \(\mathbf \Sigma\) \(({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)\) 的協方差矩陣。則
\[p(x_1,x_2,x_3,\cdots,x_n)=\frac {1}{(2\pi)^{n/2}(\det \mathbf \Sigma)^{1/2}} \exp \{- \frac 12( \mathbf {\vec {\mathbf x}}- \mathbf {\vec \mu})^{T}\mathbf \Sigma^{-1}( \mathbf {\vec {\mathbf x}}- \mathbf {\vec \mu})\}\] 記作
\[\mathcal N(\mathbf{\vec x};\mathbf{\vec \mu},\mathbf\Sigma) =\sqrt{\frac{1}{(2\pi)^{n}det(\mathbf\Sigma)}}\exp\left(-\frac 12(\mathbf{\vec x-\vec \mu})^{T}\mathbf\Sigma^{-1}(\mathbf{\vec x-\vec \mu})\right)\]
- \(n\) 維正態變量具備下列四條性質:
- \(n\) 維正態變量的每個份量都是正態變量;反之, \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n\) 都是正態變量,且相互獨立, \(({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)\) \(n\) 維正態變量
- \(n\) 維隨機變 \(({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)\) 服 \(n\) 維正態分佈的充要條件 \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n\) 的任意線性組合 \(l_1{\mathbf x}_1+l_2{\mathbf x}_2+\cdots+l_n{\mathbf x}_n\) 服從一維正態分佈,其 \(l_1,l_2,\cdots,l_n\) 不全爲0
\(({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)\) 服 \(n\) 維正態分佈, \({\mathbf y}_1,{\mathbf y}_2,\cdots,{\mathbf y}_k\) \({\mathbf x}_j,j=1,2,\cdots,n\) 的線性函數, \(({\mathbf y}_1,{\mathbf y}_2,\cdots,{\mathbf y}_k)\) 也服從多維正態分佈
這一性質稱爲正態變量的線性變換不變性
- \(({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n)\) 服 \(n\) 維正態分佈, \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n\) 相互獨 \(\Longleftrightarrow\) \({\mathbf x}_1,{\mathbf x}_2,\cdots,{\mathbf x}_n\) 兩兩不相關
6.4 指數分佈
- 指數分佈:
- 機率密度函數:
\[p(x;\lambda)=\begin{cases} 0,& x\lt0\\ \frac{\lambda}{\exp(\lambda x)},& x\ge0\\ \end{cases} \]
- 指望: \(\mathbb E_{\mathbf x}[x]=\frac{1}{\lambda}\)
- 方差: \(Var_{\mathbf x}[x]=\frac{1}{\lambda^{2}}\)
6.5 拉普拉斯分佈
- 拉普拉斯分佈:
- 機率密度函數:
\[p(x;\mu,\gamma)=\frac{1}{2\gamma}\exp\left(-\frac{|x-\mu|}{\gamma}\right) \]
- 指望: \(\mathbb E_{\mathbf x}[x]=\mu\)
- 方差: \(Var_{\mathbf x}[x]=2\gamma^{2}\)
6.6 狄拉克分佈
- 狄拉克分佈:假設全部的機率都集中在一 \(\mu\) 上,則對應的機率密度函數爲:
\[p(x)=\delta(x-\mu) \] 其 \(\delta(\cdot)\) 爲狄拉克函數,其性質爲:
\[\delta(x)=0,\forall x\neq 0 \int_{-\infty}^{\infty}\delta(x)dx=1 \]
- 狄拉克分佈的一個典型用途就是定義連續型隨機變量的經驗分佈函數。假設數據集中有樣 \(\mathbf{\vec x}_1,\mathbf{\vec x}_2,\cdots,\mathbf{\vec x}_N\) ,則定義經驗分佈函數:
\[\hat p(\mathbf{\vec x})=\frac 1N\sum_{i=1}^{N}\delta(\mathbf{\vec x}-\mathbf{\vec x}_i)\] 它就是對每一個樣本賦予了一個機率質 \(\frac 1N\) 。
- 對於離散型隨機變量的經驗分佈,則經驗分佈函數就是
multinoulli
分佈,它簡單地等於訓練集中的經驗頻率。
- 經驗分佈的兩個做用:
- 經過查看訓練集樣本的經驗分佈,從而指定該訓練集的樣本採樣的分佈(保證採樣以後的分佈不失真)
- 經驗分佈就是使得訓練數據的可能性最大化的機率密度函數
6.7 多項式分佈與狄裏克雷分佈
- 多項式分佈的質量密度函數:
\[Mult(m_1,m_2,\cdots,m_K;\vec\mu,N)=\frac{N!}{m_1!m_2!\cdots m_K!}\prod_{k=1}^{K}\mu_k^{m_k}\] 它 \((\mu_1+\mu_2+\cdots+\mu_K)^{m_1+m_2+\cdots+m_K}\) 的多項式展開的形式
- 狄利克雷分佈的機率密度函數:
\[Dir(\vec\mu;\vec\alpha)=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k-1}\]
- 能夠看到,多項式分佈與狄裏克雷分佈的機率密度函數很是類似,區別僅僅在於前面的歸一化項
- 多項式分佈是針對離散型隨機變量,經過求和獲取機率
- 狄裏克雷分佈時針對連續型隨機變量,經過求積分來獲取機率
6.8 混合機率分佈
- 混合機率分佈:它組合了其餘幾個份量的分佈來組成。
- 在每次生成樣本中,首先經過
multinoulli
分佈來決定選用哪一個份量,而後由該份量的分佈函數來生成樣本。
- 其機率分佈函數爲:
\[P(\mathbf x)=\sum_{i}P(c=i)P(\mathbf x\mid c=i)\] 其 \(P(c=i)\) 爲一個multinoulli
分佈 \(c\) 的取值範圍就是各份量的編號。
- 前面介紹的連續型隨機變量的經驗分佈函數就是一個混合機率分佈的例子,此 \(P(c=i)=\frac 1N\)
- 混合機率分佈能夠經過簡單的機率分佈建立更復雜的機率分佈
- 一個常見的例子是混合高斯模型,其 \(P(\mathbf x\mid c=i)\) 爲高斯模型。每一個份量都有對應的參 \((\mathbf{\vec \mu}_i,\mathbf \Sigma_i)\)
- 有些混合高斯模型有更強的約束,如 \(\forall i,\mathbf \Sigma_i=\mathbf\Sigma\) ,更進一步還能夠要求 \(\mathbf\Sigma\) 爲一個對角矩陣。
- 混合高斯模型是一個通用的機率密度函數逼近工具。任何平滑的機率密度函數均可以經過足夠多份量的混合高斯模型來逼近。
7、先驗分佈與後驗分佈
- 在貝葉斯學派中,
先驗分佈+數據(似然)= 後驗分佈
- 例如:假設須要識別一大箱蘋果中的好蘋果、壞蘋果的機率。
- 根據你對蘋果好、壞的認知,給出先驗分佈爲:50個好蘋果和50個壞蘋果
- 如今你拿出10個蘋果,發現有:8個好蘋果,2個壞蘋果。
根據數據,你獲得後驗分佈爲:58個好蘋果,52個壞蘋果
- 再拿出10個蘋果,發現有:9個好蘋果,1個壞蘋果。
根據數據,你獲得後驗分佈爲:67個好蘋果,53個壞蘋果
- 這樣不斷重複下去,不斷更新後驗分佈。當一箱蘋果清點完畢,則獲得了最終的後驗分佈。
在這裏:
- 若是不使用先驗分佈,僅僅清點這箱蘋果中的好壞,則獲得的分佈只能表明這一箱蘋果。
- 採用了先驗分佈以後獲得的分佈,能夠認爲是全部箱子裏的蘋果的分佈。
- 先驗分佈時:給出的好、壞蘋果的個數(也就是頻數)越大,則先驗分佈越占主導地位。
- 假設好蘋果的機率 \(p\) ,則抽 \(N\) 個蘋果中,好蘋果個數 \(k\) 個的機率爲一個二項分佈:
\[Binom(k\mid p;N)=C_N^kp^k(1-p)^{N-k}\] 其 \(C_N^k\) 爲組合數。
- 如今的問題是:好蘋果的概 \(p\) 再也不固定,而是服從一個分佈。
假設好蘋果的概 \(p\) 的先驗分佈爲貝塔分佈
\[Beta(p; \alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}\]
則後驗機率爲:
\[P(p\mid k; N,\alpha,\beta)=\frac{P(k\mid p; N)\times P(p; \alpha,\beta)}{P(k; N,\alpha,\beta)} \\ \propto P(k\mid p; N)\times P(p; \alpha,\beta)=C_N^kp^k(1-p)^{N-k}\times \frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}\\ \propto p^{k+\alpha-1}(1-p)^{N-k+\beta-1}\] 歸一化以後,獲得後驗機率爲:
\[P(p\mid k;N,\alpha,\beta)=\frac{\Gamma(\alpha+\beta+N)}{\Gamma(\alpha+k)\Gamma(\beta+N-k)}p^{k+\alpha-1}(1-p)^{N-k+\beta-1}\]
- 好蘋果概 \(p\) 的先驗分佈的指望爲:
\[\mathbb E[p]=\frac{\alpha}{\alpha+\beta}\] 好蘋果概 \(p\) 的後驗分佈的指望爲:
\[\mathbb E[p\mid k]=\frac{\alpha+k}{\alpha+\beta+N}\]
- 根據上述例子所述:
- 好蘋果的先驗機率的指望爲 \(\frac {50}{50+50}=\frac 12\)
- 進行第一輪數據校驗以後,好蘋果的後驗機率的指望爲 \(\frac {50+8}{50+50+10}=\frac {58}{110}\)
- 若是 \(\alpha\) 視爲先驗的好蘋果數量 \(\beta\) 視爲先驗的壞蘋果數量 \(N\) 表示箱子中蘋果的數量 \(k\) 表示箱子中的好蘋果數量(相應的 \(N-k\) 就是箱子中壞蘋果的數量)。則:好蘋果的先驗機率分佈的指望、後驗機率分佈的指望符合人們的生活經驗。
- 這裏使用先驗分佈和後驗分佈的指望,因 \(p\) 是一個隨機變量。若想經過一個數值來刻畫好蘋果的可能性,則用指望較好。
- 更通常的,若是蘋果不只僅分爲好、壞兩種,而是分做「尺寸一、尺寸二、...尺 \(K\) 」等。 \(N\) 個蘋果中, \(m_1\) 個尺寸1的蘋果 \(m_2\) 個尺寸2的蘋果... \(m_K\) 個尺 \(K\) 的蘋果的機率服從多項式分佈:
\[Mult(m_1,m_2,\cdots,m_K;\vec\mu,N)=\frac{N!}{m_1!m_2!\cdots m_K!}\prod_{k=1}^{K}\mu_k^{m_k}\] 其中蘋果爲尺寸1的機率 \(\mu_1\) ,尺寸2的機率 \(\mu_2\) ,...尺 \(K\) 的機率 \(\mu_K\) \(N=\sum_{k=1}^Km_k\)
- 假設蘋果尺寸的先驗機率分佈爲狄利克雷分佈:
\[Dir(\vec\mu;\vec\alpha)=\frac{\Gamma(\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k-1}\] 蘋果尺寸的先驗機率分佈的指望爲:
\[\mathbb E[\vec\mu]=\left(\frac{\alpha_1}{\sum_{k=1}^K\alpha_k},\frac{\alpha_2}{\sum_{k=1}^K\alpha_k},\cdots,\frac{\alpha_K}{\sum_{k=1}^K\alpha_k}\right)\]
- 則蘋果尺寸的後驗機率分佈也爲狄裏克雷分佈:
\[Dir(\vec\mu;\vec\alpha+\mathbf{\vec m})=\frac{\Gamma(N+\sum_{k=1}^{K}\alpha_k)}{\sum_{k=1}^{K}\Gamma(\alpha_k+m_k)}\prod_{k=1}^{K}\mu_k^{\alpha_k+m_k-1}\] 蘋果尺寸的後驗機率分佈的指望爲:
\[\mathbb E[\vec\mu]=\left(\frac{\alpha_1+m_1}{N+\sum_{k=1}^K\alpha_k},\frac{\alpha_2+m_2}{N+\sum_{k=1}^K\alpha_k},\cdots,\frac{\alpha_K+m_K}{N+\sum_{k=1}^K\alpha_k}\right)\]
8、測度論
- 測度爲零:非正式化的提法是,若是集合中的點的數量能夠忽略不計,則該集合的測度爲零。
- 如:二維空間中的直線的測度爲零,而正方形的測度非零。
- 幾乎到處相等:不知足條件的那些點組成的集合的測度爲零。
- 假設隨機變 \(\mathbf x,\mathbf y\) 滿 \(\mathbf y=g(\mathbf x)\) ,且函 \(g(\cdot)\) 知足:到處連續、可導、且存在反函數。
則有:
\[p_{\mathbf x}(x)=p_{\mathbf y}(g(x)) \left|\frac{\partial g(x)}{\partial x}\right|\] 或者等價地:
\[p_{\mathbf y}(y)=p_{\mathbf x}(g^{-1}(y)) \left|\frac{\partial x}{\partial y}\right| \]
- 若是擴展到高維空間,則有:
\[p_{\mathbf x}(\mathbf{\vec x})=p_{\mathbf y}(g(\mathbf{\vec x})) \left|\det\left(\frac{\partial g(\mathbf{\vec x})}{\partial \mathbf{\vec x}}\right)\right|\]
- 並不 \(p_{\mathbf y}(y)=p_{\mathbf x}(g^{-1}(y))\) ,這是因 \(g(\cdot)\) 引發了空間扭曲,從而導 \(\int p_{\mathbf x}(g(x))dx \neq 1\) 。其實咱們有:
\[|p_{\mathbf y}(g(x))dy|=|p_{\mathbf x}(x)dx|\] 求解該方程,即獲得上述解。
9、信息論
- 信息論背後的原理是:從不太可能發生的事件中能學到更多的有用信息。
- 發生可能性較大的事件包含較少的信息
- 發生可能性較小的事件包含較多的信息
- 獨立事件包含額外的信息
對於事 \(\mathbf x=x\) ,定義自信息self-information
爲:
\[I(x)=-\log P(x) \]
- 自信息僅僅處理單個輸出,可是若是計算自信息的指望,它就是熵:
\[H(\mathbf x)=\mathbb E_{\mathbf x\sim P}[I(x)]=-\mathbb E_{\mathbf x\sim P}[\log P(x)]\] 記 \(H(P)\) 。
熵刻畫了按照真實分 \(P\) 來識別一個樣本所須要的編碼長度的指望(即平均編碼長度)。
如:含有4個字母(A,B,C,D)
的樣本集中,真實分 \(P=(\frac 12,\frac 12,0,0)\) ,則只須要1位編碼便可識別樣本。
KL
散度:對於給定的隨機變 \(\mathbf x\) ,它的兩個機率分佈函 \(P(x)\) \(Q(x)\) 的區別能夠用KL
散度來度量:
\[D_{KL}(P||Q)=\mathbb E_{\mathbf x\sim P}\left[\log \frac{P(x)}{Q(x)}\right]=\mathbb E_{\mathbf x\sim P}\left[\log P(x) -\log Q(x) \right]\]
KL
散度非負。當它爲0時,當且僅當 P
和Q
是同一個分佈(對於離散型隨機變量),或者兩個分佈幾乎到處相等(對於連續型隨機變量)
- \(D_{KL}(P||Q) \neq D_{KL}(Q||P)\)
- 交叉熵
cross-entropy
\(H(P,Q)=H(P)+D_{KL}(P||Q)=-\mathbb E_{\mathbf x\sim P}\log Q(x)\) 。
交叉熵刻畫了使用錯誤分 \(Q\) 來表示真實分 \(P\) 中的樣本的平均編碼長度。
\(D_{KL(P||Q)}\) 刻畫了錯誤分 \(Q\) 編碼真實分 \(P\) 帶來的平均編碼長度的增量。
數值計算
1、數值穩定性
1.1 近似偏差
- 在計算機中執行數學運算須要使用有限的比特位來表達實數,這會引入近似偏差
- 近似偏差能夠在多步數值運算中傳遞、積累,從而致使理論上成功的算法失敗
- 數值算法設計時要考慮將累計偏差最小化
- 上溢出
overflow
和下溢出underflow
:
- 一種嚴重的偏差是下溢出:當接近零的數字四捨五入爲零時,發生下溢出
- 許多函數在參數爲零和參數爲一個很是小的正數時,行爲是不一樣的。如對數函數要求自變量大於零;除法中要求除數非零。
- 另外一種嚴重的偏差是上溢出:當數值很是大,超過了計算機的表示範圍時,發生上溢出。
1.2 softmax 函數
- 一個數值穩定性的例子是
softmax
函數。
\(\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^{T}\) ,則softmax
函數定義爲:
\[\text{softmax}(\mathbf{\vec x})=\left(\frac{\exp(x_1)}{\sum_{j=1}^{n}\exp(x_j)},\frac{\exp(x_2)}{\sum_{j=1}^{n}\exp(x_j)},\cdots,\frac{\exp(x_n)}{\sum_{j=1}^{n}\exp(x_j)}\right)^{T} \] 當全部 \(x_i\) 都等於常 \(c\) 時,softmax
函數的每一個份量的理論值都 \(\frac 1n\)
- 考慮 \(c\) 是一個很是大的負數(好比趨近負無窮),此時 \(\exp( c)\) 下溢出。此時 $ \frac{\exp(c )}{\sum_{j=1}^{n}\exp(c )}$ 分母爲零,結果未定義。
- 考慮 \(c\) 是一個很是大的正數(好比趨近正無窮),此時 \(\exp( c)\) 上溢出。 $ \frac{\exp(c )}{\sum_{j=1}^{n}\exp(c )}$ 的結果未定義。
- 解決的辦法是: \(\mathbf{\vec z}=\mathbf{\vec x}-\max_i x_i\) ,則 $\text{softmax}(\mathbf{\vec z}) $ 的 \(i\) 個份量爲:
\[\text{softmax}(\mathbf{\vec z})_i=\frac{\exp(z_i)}{\sum_{j=1}^{n}\exp(z_j)}=\frac{\exp(\max_k x_k)\exp(z_i)}{\exp(\max_k x_k)\sum_{j=1}^{n}\exp(z_j)}\\ =\frac{\exp(z_i+\max_k x_k)}{\sum_{j=1}^{n}\exp(z_j+\max_k x_k)}\\ =\frac{\exp(x_i)}{\sum_{j=1}^{n}\exp(x_j)}\\ =\text{softmax}(\mathbf{\vec x})_i\]
- 當 $\mathbf{\vec x} $ 的份量較小時, $\mathbf{\vec z} $ 的份量至少有一個爲零,從而致使 \(\text{softmax}(\mathbf{\vec z})_i\) 的分母至少有一項爲 1,從而解決了下溢出的問題。
- 當 $\mathbf{\vec x} $ 的份量較大時 \(\text{softmax}(\mathbf{\vec z})_i\) 至關於分子分母同時除以一個很是大的數 \(\exp(\max_i x_i)\) ,從而解決了上溢出。
- 還有個問題: $\mathbf{\vec x} $ 的份量較小時 \(\text{softmax}(\mathbf{\vec x})_i\) 的計算結果可能爲0。
- 當從頭開始實現一個數值算法時,須要考慮數值穩定性。
當使用現有的數值計算庫時,不須要考慮數值穩定性。
softmax
名字的來源是hardmax
。
hardmax
把一個向 $\mathbf{\vec x} $ 映射成向 \((0,\cdots,0,1,0,\cdots,0)^T\) 。即 \(\mathbf{\vec x}\) 最大元素的位置填充1
,其它位置填充0
。
softmax
會在這些位置填充0.0~1.0
之間的值(如:某個機率值)。
2、Conditioning
Conditioning
刻畫了一個函數的以下特性:當函數的輸入發生了微小的變化時,函數的輸出的變化有多大。
- 對於
Conditioning
較大的函數,在數值計算中可能有問題。由於函數輸入的舍入偏差可能致使函數輸出的較大變化。
- 對於方 \(\mathbf A\in \mathbb R^{n\times n}\) ,其條件數
condition number
爲:
\[\text{condition number}=\max_{1\le i,j\le n,i\ne j}\left|\frac{\lambda_i}{\lambda_j} \right|\] 其 \(\lambda_i,i=1,2,\cdots,n\) \(\mathbf A\) 的特徵值。
- 方陣的條件數就是最大的特徵值除以最小的特徵值。
- 當方陣的條件數很大時,矩陣的求逆將對偏差特別敏感(即: \(\mathbf A\) 的一個很小的擾動,將致使其逆矩陣一個很是明顯的變化)。
- 條件數是矩陣自己的特性,它會放大那些包含矩陣求逆運算過程當中的偏差。
3、梯度降低法
- 梯度降低法是求解無約束最優化問題的一種常見方法,優勢是實現簡單
- 對於函數 \(f:\mathbb R^{n} \rightarrow \mathbb R\) ,輸入爲多維的。假設輸 \(\mathbf{\vec x}=(x_1,x_2,\cdots,x_n)^{T}\) ,則定義梯度:
\[\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=\left(\frac{\partial}{\partial x_1}f(\mathbf{\vec x}),\frac{\partial}{\partial x_2}f(\mathbf{\vec x}),\cdots,\frac{\partial}{\partial x_n}f(\mathbf{\vec x})\right)^{T}\]
- 駐點知足: \(\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=\mathbf{\vec 0}\)
- 沿着方 \(\mathbf{\vec u}\) 的方向導數
directional derivative
定義爲:
\[\lim_{\alpha\rightarrow 0}\frac{f(\mathbf{\vec x}+\alpha\mathbf{\vec u})-f(\mathbf{\vec x})}{\alpha} \] 其 \(\mathbf{\vec u}\) 爲單位向量。
- 方向導數就是 \(\frac{\partial}{\partial \alpha}f(\mathbf{\vec x}+\alpha\mathbf{\vec u})\) 。根據鏈式法則,它也等於 \(\mathbf{\vec u}^{T}\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})\)
- 爲了最小 \(f\) ,則尋找一個方向:沿着該方向,函數值減小的速度最快(換句話說,就是增長最慢)。即:
\[\min_{\mathbf{\vec u}} \mathbf{\vec u}^{T}\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})\\ s.t.\quad ||\mathbf{\vec u}||_2=1\]
- 假 \(\mathbf{\vec u}\) 與梯度的夾角 \(\theta\) ,則目標函數等於:
\[||\mathbf{\vec u}||_2||\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})||_2 \cos\theta\] 考慮 \(||\mathbf{\vec u}||_2=1\) ,以及梯度的大小 \(\theta\) 無關,因而上述問題轉化爲:
\[\min_\theta \cos\theta\] 因而 \(\theta^{*}=\pi\) , \(\mathbf{\vec u}\) 沿着梯度的相反的方向。
即:梯度的方向是函數值增長最快的方向,梯度的相反方向是函數值減少的最快的方向。
- 能夠沿着負梯度的方向來降 \(f\) 的值,這就是梯度降低法。
- 根據梯度降低法,爲了尋 \(f\) 的最小點,迭代過程爲:
\[\mathbf{\vec x}^{\prime}= \mathbf{\vec x}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})\] 迭代結束條件爲:梯度向 \(\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})\) 的每一個成分爲零或者很是接近零。
- \(\epsilon\) 爲學習率,它是一個正數,決定了迭代的步長。
- 選擇學習率有多種方法:
- 一種方法是:選 \(\epsilon\) 爲一個小的、正的常數
- 另外一種方法是:給定多 \(\epsilon\) ,而後選擇使 \(f(\mathbf{\vec x}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}))\) 最小的那個值做爲本次迭代的學習率(即:選擇一個使得目標函數降低最大的學習率)。這種作法叫作線性搜索
line search
- 第三種方法是:求得 \(f(\mathbf{\vec x}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}))\) 取極小值 \(\epsilon\) ,即求解最優化問題:
\[\epsilon^{*}=\arg\min_{\epsilon,\epsilon \gt 0 }f(\mathbf{\vec x}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}))\] 這種方法也稱做最速降低法。
- 在最速降低法中,假設相鄰的三個迭代點分別爲 \(\mathbf{\vec x}^{<k>},\mathbf{\vec x}^{<k+1>},\mathbf{\vec x}^{<k+2>}\) ,能夠證實 \((\mathbf{\vec x}^{<k+1>}-\mathbf{\vec x}^{<k>})\cdot (\mathbf{\vec x}^{<k+2>}-\mathbf{\vec x}^{<k+1>})=0\) 。即相鄰的兩次搜索的方向是正交的!
證實:
\[\mathbf{\vec x}^{<k+1>}=\mathbf{\vec x}^{<k>}-\epsilon^{<k>}\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k>})\\ \mathbf{\vec x}^{<k+2>}=\mathbf{\vec x}^{<k+1>}-\epsilon^{<k+1>}\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k+1>})\\\] 根據最優化問題,有:
\[\epsilon^{<k+1>}=\arg\min_{\epsilon,\epsilon \gt 0 }f(\mathbf{\vec x}^{<k+1>}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k+1>}))\\ \rightarrow \frac{\partial f(\mathbf{\vec x}^{<k+1>}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k+1>})) }{\partial \epsilon}\mid_{\epsilon=\epsilon^{<k+1>}}=0\\ \rightarrow \nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k+2>})\cdot \nabla _{\mathbf{\vec x}} f(\mathbf{\vec x}^{<k+1>})=0\\ \rightarrow (\mathbf{\vec x}^{<k+1>}-\mathbf{\vec x}^{<k>})\cdot (\mathbf{\vec x}^{<k+2>}-\mathbf{\vec x}^{<k+1>})=0\]
- 此時迭代的路線是鋸齒形的,所以收斂速度較慢
- 某些狀況下若是梯度向 \(\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})\) 的形式比較簡單,則能夠直接求解方程:
\[\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=\mathbf{\vec 0}\]
- 梯度降低算法:
- 輸入:
- 目標函數 \(f(\mathbf {\vec x})\)
- 梯度函數 $g(\mathbf {\vec x})=\nabla f(\mathbf {\vec x}) $
- 計算精度 \(e\)
- 輸出 \(f(\mathbf {\vec x})\) 的極小 \(\mathbf {\vec x}^*\)
- 算法步驟:
- 選取初始 \(\mathbf {\vec x}^{<0>}\in \mathbb R^{n}\) , \(k=0\)
- 計 \(f(\mathbf {\vec x}^{<k>})\)
- 計算梯 \(\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})\)
若梯 \(|\mathbf {\vec g}_k| \lt e\) ,則中止迭代 \(\mathbf {\vec x}^*=\mathbf {\vec x}\)
即此時導數爲0
若梯 \(|\mathbf {\vec g}_k| \ge e\) ,則 \(\mathbf {\vec p}_k=-\mathbf {\vec g}_k\) , \(\epsilon_k\) \(\epsilon_k =\min_{\epsilon \le 0}f(\mathbf {\vec x}^{<k>}+\epsilon \mathbf {\vec p}_k)\)
一般這也是個最小化問題。可是能夠給定一系列 \(\epsilon_k\) 的值:如[10,1,0.1,0.01,0.001,0.0001]
而後從中挑選
- \(\mathbf {\vec x}^{<k+1>} = \mathbf {\vec x}^{<k>}+\epsilon_k \mathbf {\vec p}_k\) ,計 \(f(\mathbf {\vec x}^{<k+1>})\)
- 若 \(|f(\mathbf {\vec x}^{<k+1>})-f(\mathbf {\vec x}^{<k>})| \lt e\) 或者 \(|\mathbf {\vec x}^{<k+1>}-\mathbf {\vec x}^{<k>}| \lt e\) 時,中止迭代 \(\mathbf {\vec x}^*=\mathbf {\vec x}\)
- 不然,令 \(k=k+1\) ,計算梯度 \(\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})\) 繼續迭代

- 當目標函數是凸函數時,梯度降低法的解是全局最優的。
- 一般狀況下,梯度降低法的解不保證是全局最優的
- 梯度降低法的收斂速度未必是最快的
4、海森矩陣
4.1 二階導數
- 二階導 \(f^{\prime\prime}(x)\) 刻畫了曲率。假設有一個二次函數(實際任務中,不少函數不是二次的,可是在局部能夠近似爲二次函數):
- 若是函數的二階導數爲零,則它是一條直線。若是梯度爲 1,則當沿着負梯度的步長爲 \(\epsilon\) 時,函數值減小 \(\epsilon\)
- 若是函數的二階導數爲負,則函數向下彎曲。若是梯度爲1,則當沿着負梯度的步長爲 \(\epsilon\) 時,函數值減小的量大於 \(\epsilon\)
- 若是函數的二階導數爲正,則函數向上彎曲。若是梯度爲1,則當沿着負梯度的步長爲 \(\epsilon\) 時,函數值減小的量少於 \(\epsilon\)
4.2 海森矩陣
- 當函數輸入爲多維時,定義海森矩陣:
\[\mathbf H(f)(\mathbf{\vec x}) =\begin{bmatrix} \frac{\partial^{2}}{\partial x_1\partial x_1}f&\frac{\partial^{2}}{\partial x_1\partial x_2}f&\cdots&\frac{\partial^{2}}{\partial x_1\partial x_n}f\\ \frac{\partial^{2}}{\partial x_2\partial x_1}f&\frac{\partial^{2}}{\partial x_2\partial x_2}f&\cdots&\frac{\partial^{2}}{\partial x_2\partial x_n}f\\ \vdots&\vdots&\ddots&\vdots\\ \frac{\partial^{2}}{\partial x_n\partial x_1}f&\frac{\partial^{2}}{\partial x_n\partial x_2}f&\cdots&\frac{\partial^{2}}{\partial x_n\partial x_n}f \end{bmatrix}\] 即海森矩陣的 \(i\) \(j\) 列元素爲:
\[\mathbf H_{i,j}=\frac{\partial^{2}}{\partial x_i\partial x_j}f(\mathbf{\vec x}) \]
- 當二階偏導是連續時,海森矩陣是對稱陣,即有 \(\mathbf H=\mathbf H^{T}\)
- 對於特定方 \(\mathbf{\vec d}\) 上的二階導數爲:
\[\mathbf{\vec d}^T\mathbf H \mathbf{\vec d}\]
- 若是 \(\mathbf{\vec d}\) 是海森矩陣的特徵向量,則該方向的二階導數就是對應的特徵值
- 若是 \(\mathbf{\vec d}\) 不是海森矩陣的特徵向量,則該方向的二階導數就是全部特徵值的加權平均,權重在
(0,1)
之間。且與 \(\mathbf{\vec d}\) 夾角越小的特徵向量對應的特徵值具備更大的權重。
- 最大特徵值肯定了最大二階導數,最小特徵值肯定最小二階導數
4.3 海森矩陣與學習率
- \(f(\mathbf{\vec x})\) \(\mathbf{\vec x}_0\) 處泰勒展開:
\[f(\mathbf{\vec x}) \approx f(\mathbf{\vec x}_0)+(\mathbf{\vec x}-\mathbf{\vec x}_0 )^{T}\mathbf{\vec g}+\frac 12(\mathbf{\vec x}-\mathbf{\vec x}_0)^{T}\mathbf H (\mathbf{\vec x}-\mathbf{\vec x}_0)\] 其 \(\mathbf{\vec g}\) \(\mathbf{\vec x}_0\) 處的梯度 \(\mathbf H\) \(\mathbf{\vec x}_0\) 處的海森矩陣。
根據梯度降低法:
\[\mathbf{\vec x}^{\prime}= \mathbf{\vec x}-\epsilon\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})\] 應用在 \(\mathbf{\vec x}_0\) ,有:
\[f(\mathbf{\vec x}_0-\epsilon\mathbf{\vec g})\approx f(\mathbf{\vec x}_0)-\epsilon\mathbf{\vec g}^{T}\mathbf{\vec g}+\frac 12\epsilon^{2}\mathbf{\vec g}^{T}\mathbf H \mathbf{\vec g}\]
- 第一項表明函數在點 \(\mathbf{\vec x}_0\) 處的值
- 第二項表明因爲斜率的存在,致使函數值的變化
- 第三項表明因爲曲率的存在,對於函數值變化的矯正
- 注意:如 \(\frac 12\epsilon^{2}\mathbf{\vec g}^{T}\mathbf H \mathbf{\vec g}\) 較大,則頗有可能致使:沿着負梯度的方向,函數值反而增長!
- 如 \(\mathbf{\vec g}^{T}\mathbf H \mathbf{\vec g} \le 0\) ,則無 \(\epsilon\) 取多大的值,能夠保證函數值是減少的
- 如 \(\mathbf{\vec g}^{T}\mathbf H \mathbf{\vec g} \gt 0\) ,則學習 \(\epsilon\) 不能太大。 \(\epsilon\) 太大則函數值增長
- 根 \(f(\mathbf{\vec x}_0-\epsilon\mathbf{\vec g}) - f(\mathbf{\vec x}_0) \lt 0\) 有:
\[\epsilon \lt \frac{\mathbf{2\vec g}^{T}\mathbf{\vec g}}{\mathbf{\vec g}^{T}\mathbf H\mathbf{\vec g}}\]
- 考慮最速降低法,選擇使 \(f\) 降低最快 \(\epsilon\) ,則有:
\[\epsilon^{*}=\arg\min_{\epsilon,\epsilon \gt 0 }f(\mathbf{\vec x}_0-\epsilon\mathbf{\vec g})\] 求 \(\frac{\partial }{\partial \epsilon} f(\mathbf{\vec x}_0-\epsilon\mathbf{\vec g})=0\) 有:
\[\epsilon^{*}=\frac{\mathbf{\vec g}^{T}\mathbf{\vec g}}{\mathbf{\vec g}^{T}\mathbf H\mathbf{\vec g}}\] > 根 \(\mathbf{\vec g}^{T}\mathbf H \mathbf{\vec g} \gt 0\) ,很明顯有 $\epsilon^{*} \lt \frac{\mathbf{2\vec g}^{T}\mathbf{\vec g}}{\mathbf{\vec g}^{T}\mathbf H\mathbf{\vec g}} $
- 因爲海森矩陣爲實對稱陣,所以它能夠進行特徵值分解。
假設其特徵值從大到小排列爲:
\[\lambda_1,\lambda_2,\cdots,\lambda_n\] 其瑞利商 \(R(\mathbf{\vec x})=\frac{\mathbf{\vec x}^{T}\mathbf H\mathbf{\vec x}}{\mathbf{\vec x}^{T}\mathbf{\vec x}},\mathbf{\vec x} \ne \mathbf{\vec 0}\) ,能夠證實:
\[\lambda_n \le R(\mathbf{\vec x}) \le \lambda_1\\ \lambda_1=\max_{\mathbf{\vec x}\ne \mathbf{\vec 0}} R(\mathbf{\vec x})\\ \lambda_n=\min_{\mathbf{\vec x}\ne \mathbf{\vec 0}} R(\mathbf{\vec x}) \] 根據:
\[\epsilon^{*}=\frac{\mathbf{\vec g}^{T}\mathbf{\vec g}}{\mathbf{\vec g}^{T}\mathbf H\mathbf{\vec g}}=\frac{1}{R(\mathbf{\vec g})}\] 可知海森矩陣決定了學習率的取值範圍。
- 最壞的狀況下,梯度 \(\mathbf{\vec g}\) 與海森矩陣最大特徵值 \(\lambda_1\) 對應的特徵向量平行,則此時最優學習率爲 \(\frac {1}{\lambda_1}\)
4.4 駐點與全局極小點
- 知足導數爲零的點( \(f^{\prime}(x)=0\) )稱做駐點。駐點可能爲下面三種類型之一:
- 局部極小點:在 \(x\) 的一個鄰域內,該點的值最小
- 局部極大點:在 \(x\) 的一個鄰域內,該點的值最大
- 鞍點:既不是局部極小,也不是局部極大
- 全局極小點 \(x^{*}=\arg\min_x f(x)\) 。
- 全局極小點可能有一個或者多個
- 在深度學習中,目標函數極可能具備很是多的局部極小點,以及許多位於平坦區域的鞍點。這使得優化很是不利。所以一般選取一個很是低的目標函數值,而不必定要是全局最小值。
- 二階導數能夠配合一階導數來決定駐點的類型:
- 局部極小點 \(f^{\prime}(x)=0,f^{\prime\prime}(x)\gt 0\)
- 局部極大點 \(f^{\prime}(x)=0,f^{\prime\prime}(x)\lt 0\)
- \(f^{\prime}(x)=0,f^{\prime\prime}(x)= 0\) :駐點的類型可能爲任意三者之一。
- 對於多維的狀況相似:
- 局部極小點 $\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=0 $ ,且海森矩陣爲正定的(即全部的特徵值都是正的)。
- 當海森矩陣爲正定時,任意方向的二階偏導數都是正的。
- 局部極大點 $\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=0 $ ,且海森矩陣爲負定的(即全部的特徵值都是負的)。
- 當海森矩陣爲負定時,任意方向的二階偏導數都是負的。
- $\nabla _{\mathbf{\vec x}} f(\mathbf{\vec x})=0 $ ,且海森矩陣的特徵值中至少一個正值、至少一個負值時,爲鞍點。
- 當海森矩陣非上述狀況時,駐點類型沒法判斷。
下圖 \(f(\mathbf{\vec x})=x_1^{2}-x_2^{2}\) 在原點附近的等值線。其海森矩陣爲一正一負。
- 沿着 \(x_1\) 方向,曲線向上;沿着 \(x_2\) 方向,曲線向下。
- 鞍點就是在一個橫截面內的局部極小值,另外一個橫截面內的局部極大值。
4、牛頓法
- 梯度降低法有個缺陷:它未能利用海森矩陣的信息
- 當海森矩陣的條件數較大時,不一樣方向的梯度的變化差別很大。
- 當海森矩陣的條件數較大時,也難以選擇合適的步長。
- 下圖是利用梯度降低法尋找函數最小值的路徑。
- 該函數是二次函數,海森矩陣條件數爲 5,代表最大麴率是最小曲率的5倍。
- 紅線爲梯度降低的搜索路徑。(它沒有用最速降低法,而是用到線性搜索。若是是最速降低法,則相鄰兩次搜索的方向正交)
- 牛頓法結合了海森矩陣。
考慮泰勒展開式:
\[f(\mathbf{\vec x}) \approx f(\mathbf{\vec x}_0)+(\mathbf{\vec x}-\mathbf{\vec x}_0 )^{T}\mathbf{\vec g}+\frac 12(\mathbf{\vec x}-\mathbf{\vec x}_0)^{T}\mathbf H (\mathbf{\vec x}-\mathbf{\vec x}_0)\] 其 \(\mathbf{\vec g}\) \(\mathbf{\vec x}_0\) 處的梯度 \(\mathbf H\) \(\mathbf{\vec x}_0\) 處的海森矩陣。
如 \(\mathbf{\vec x}\) 爲極值點,則有 \(\frac{\partial}{\partial \mathbf{\vec x}}f(\mathbf{\vec x})=\mathbf{\vec 0}\) ,則有:
\[\mathbf{\vec x}^{*}=\mathbf{\vec x}_0 -\mathbf H^{-1}\mathbf{\vec g}\]
- 當 \(f\) 是個正定的二次型,則牛頓法直接一次就能到達最小值點
- 當 \(f\) 不是正定的二次型,則能夠在局部近似爲正定的二次型,那麼則採用屢次牛頓法便可到達最小值點。
一維狀況下,梯度降低法和牛頓法的原理展現:
- 梯度降低法:下一次迭代的 \(\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}-\epsilon_k \nabla f(\mathbf {\vec x})\) 。
- 對於一維的狀況,能夠固定 \(\epsilon_k=\eta\) ,因爲隨着迭代的推動 \(f^{\prime}(x)\) 絕對值是減少的(直到0),所以越靠近極值點 \(\Delta(x)\) 越小
- 牛頓法:目標 \(\nabla f(\mathbf {\vec x})=0\) 。在一維狀況下就是求 \(f^\prime (x)=0\) 。牛頓法的方法是: \(x=x^{<k>}\) \(y=f^{\prime}(x)\) 切線,該切線過 \((x^{<k>},f^{\prime}(x^{<k>}))\) 。該切線 \(x\) 軸上的交點就是
\[x^{<k+1>}=x^{<k>}-\frac {f^{\prime}(x^{<k>})}{f^{\prime\prime}(x^{<k>})}\] 推廣到多維狀況下就是:
\[\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}-\mathbf H_k^{-1}\mathbf {\vec g}_k\]
- 當位於一個極小值點附近時,牛頓法比梯度降低法能更快地到達極小值點。
- 若是在一個鞍點附近,牛頓法效果不好;而梯度降低法此時效果較好(除非負梯度的方向恰好指向了鞍點)。
- 僅僅利用了梯度的優化算法(如梯度降低法)稱做一階優化算法;同時利用了海森矩陣的優化算法(如牛頓法)稱做二階優化算法
- 牛頓法算法:
- 輸入:
- 目標函數 \(f(\mathbf {\vec x})\)
- 梯度 \(g(\mathbf {\vec x})=\nabla f(\mathbf {\vec x})\)
- 海森矩陣 \(\mathbf H(\mathbf {\vec x})\)
- 精度要求 \(e\)
- 輸出 \(f(\mathbf {\vec x})\) 的極小值 \(\mathbf {\vec x}^*\)
- 算法步驟:
- 選取初始 \(\mathbf {\vec x}^{<0>}\in \mathbb R^{n}\) , \(k=0\)
- 計 \(\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})\)
- \(|\mathbf {\vec g}_k| \lt e\) ,則中止計算,獲得近似 \(\mathbf {\vec x}=\mathbf {\vec x}^*\)
- \(|\mathbf {\vec g}_k| \ge e\) ,則:
- 計算 \(\mathbf H_k=\mathbf H(\mathbf {\vec x}^{<k>})\) ,並求 \(\mathbf {\vec p}_k,\mathbf H_k \mathbf {\vec p}_k=-\mathbf {\vec g}_k\)
- 置 \(\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}+\mathbf {\vec p}_k\)
- 置 \(k=k+1\) ,計算 \(\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})\) ,迭代
- 梯度降低法中,每一 \(\mathbf {\vec x}\) 增長的方向必定是梯度相反的方 \(- \epsilon_k \nabla_k\)
- 增長的幅度由 \(\epsilon_k\) 決定,若跨度過大容易引起震盪;
而牛頓法中,每一 \(\mathbf {\vec x}\) 增長的方向是梯度增速最大的反方 \(- \mathbf H_k^{-1} \nabla_k\) (它一般狀況下與梯度不共線)
- 增長的幅度已經包含在 $ \mathbf H_k^{-1}$ 中(也能夠乘以學習率做爲幅度的係數)
- 深度學習中的目標函數很是複雜,沒法保證能夠經過上述優化算法進行優化。所以有時會限定目標函數具備
Lipschitz
連續,或者其導數Lipschitz
連續。
凸優化在某些特殊的領域取得了巨大的成功。可是在深度學習中,大多數優化問題都難以用凸優化來描述。
凸優化的重要性在深度學習中大大下降。凸優化僅僅做爲一些深度學習算法的子程序。
5、擬牛頓法
5.1 原理
- 在牛頓法的迭代中,須要計算海森矩陣的逆矩 \(\mathbf H^{-1}\) ,這一計算比較複雜。
- 能夠考慮用一個 \(n\) 階矩陣 \(\mathbf G_k=G(\mathbf {\vec x}^{<k>})\) 來近似代替 \(\mathbf H^{-1}_k=H^{-1}(\mathbf {\vec x}^{<k>})\) 。
- 先看海森矩陣知足的條件 \(\mathbf {\vec g}_{k+1}-\mathbf {\vec g}_k=\mathbf H_k (\mathbf {\vec x}^{<k+1>}-\mathbf {\vec x}^{<k>})\)
- 令 \(\mathbf {\vec y}_k=\mathbf {\vec g}_{k+1}-\mathbf {\vec g}_k, \vec \delta_k=\mathbf {\vec x}^{<k+1>}-\mathbf {\vec x}^{<k>}\) 則有 \(\mathbf {\vec y}_k=\mathbf H_k \vec \delta_k\) ,或者 \(\mathbf H_k^{-1}\mathbf {\vec y}_k=\vec \delta_k\) 。這稱爲擬牛頓條件
- 根據牛頓法的迭代: \(\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}-\mathbf H_k^{-1}\mathbf {\vec g}_k\) ,將 \(f(\mathbf {\vec x})\) 在 \(\mathbf {\vec x}^{<k>}\) 的一階泰勒展開:
\[ f(\mathbf {\vec x}^{<k+1>})=f(\mathbf {\vec x}^{<k>})+f'(\mathbf {\vec x}^{<k>})(\mathbf {\vec x}^{<k+1>}-\mathbf {\vec x}^{<k>})\\ =f(\mathbf {\vec x}^{<k>})+\mathbf {\vec g}_k^{T}(-\mathbf H_k^{-1}\mathbf {\vec g}_k)=f(\mathbf {\vec x}^{<k>})-\mathbf {\vec g}_k^{T}\mathbf H^{-1}_k\mathbf {\vec g}_k\] \(\mathbf H_k\) 是正定矩陣時,總 \(f(\mathbf {\vec x}^{<k+1>})<f(\mathbf {\vec x}^{<k>})\) ,所以每次都是沿着函數遞減的方向迭代
- 擬牛頓法若是選 \(\mathbf G_k\) 做 \(\mathbf H_k^{-1}\) 的近似時 \(\mathbf G_k\) 一樣要知足兩個條件:
- 正定矩陣定義: \(\mathbf M\) \(n\times n\) 階方陣,若是對任何非零向 \(\mathbf {\vec x}\) ,都 \(\mathbf {\vec x}^{T} \mathbf M \mathbf {\vec x} \gt 0\) ,就 \(\mathbf M\) 正定矩陣
- 正定矩陣斷定:
- 斷定定理1:對稱陣 \(\mathbf M\) 爲正定的充分必要條件是 \(\mathbf M\) 的特徵值全爲正。
- 斷定定理2:對稱陣 \(\mathbf M\) 爲正定的充分必要條件是 \(\mathbf M\) 的各階順序主子式都爲正。
- 斷定定理3:任意陣 \(\mathbf M\) 爲正定的充分必要條件是 \(\mathbf M\) 合同於單位陣。
- 正定矩陣的性質:
- 正定矩陣必定是非奇異的。奇異矩陣的定義:若 \(n\times n\) 階矩陣 \(\mathbf M\) 爲奇異陣,則其的行列式爲零,即 \(|\mathbf M|=0\) 。
- 正定矩陣的任一主子矩陣也是正定矩陣。
- 若 \(\mathbf M\) \(n\times n\) 階對稱正定矩陣,則存在惟一的主對角線元素都是正數的下三角陣 \(\mathbf L\) ,使得 \(\mathbf M=\mathbf L\mathbf L^{T}\) ,此分解式稱爲 正定矩陣的喬列斯基(
Cholesky
)分解。
- 若 \(\mathbf M\) 爲 \(n\times n\) 階正定矩陣,則 \(\mathbf M\) 爲 \(n\times n\) 階可逆矩陣。
- 正定矩陣在某個合同變換下可化爲標準型,即對角矩陣。
- 全部特徵值大於零的對稱矩陣也是正定矩陣。
- 合同矩陣:兩個實對稱矩 \(\mathbf A\) \(\mathbf B\) 是合同的,當且僅當存在一個可逆矩 \(\mathbf P\) ,使 \(\mathbf A=\mathbf P^{T}\mathbf B\mathbf P\)
- \(\mathbf A\) 的合同變換:對某個可逆矩陣 \(\mathbf P\) ,對 \(\mathbf A\) 執行 \(\mathbf P^{T}\mathbf A\mathbf P\)
5.2 DFP 算法
- DFP算法(
Davidon-Fletcher-Powell
)選 \(\mathbf G_{k+1}\) 的方法是:
假設每一步迭代 \(\mathbf G_{k+1}\) 是 \(\mathbf G_k\) 加上兩個附加項構成 \(\mathbf G_{k+1}=\mathbf G_k+\mathbf P_k+\mathbf Q_k\) ,其 \(\mathbf P_k,\mathbf Q_k\) 是待定矩陣。此時有 \(\mathbf G_{k+1}\mathbf {\vec y}_k=\mathbf G_k\mathbf {\vec y}_k+\mathbf P_k\mathbf {\vec y}_k+\mathbf Q_k\mathbf {\vec y}_k\) 。
爲了知足擬牛頓條件,能夠取 \(\mathbf P_k\mathbf {\vec y}_k=\vec \delta_k,\quad \mathbf Q_k\mathbf {\vec y}_k =-\mathbf G_k\mathbf {\vec y}_k\) 。
這樣 \(\mathbf P_k,\mathbf Q_k\) 不止一個。例如取
\[\mathbf P_k=\frac{\vec \delta_k\vec \delta_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k},\quad \mathbf Q_k=-\frac{\mathbf G_k\mathbf {\vec y}_k \mathbf {\vec y}_k^{T} \mathbf G_k}{\mathbf {\vec y}_k^{T}\mathbf G_k \mathbf {\vec y}_k}\]
這 \(\vec \delta_k,\mathbf {\vec y}_k\) 都是列向量
則迭代公式爲:
\[\mathbf G_{k+1}=\mathbf G_k+\frac{\vec \delta_k\vec \delta_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k}-\frac{\mathbf G_k\mathbf {\vec y}_k \mathbf {\vec y}_k^{T} \mathbf G_k}{\mathbf {\vec y}_k^{T} \mathbf G_k \mathbf {\vec y}_k}\]
其中的向 \(\vec \delta_k,\mathbf {\vec y}_k\) 都是列向量
- 能夠證實,若是初始矩 \(\mathbf G_0\) 是正定的,則迭代過程當中每一個矩 \(\mathbf G_k\) 都是正定的
- DFP算法:
- 輸入:
- 目標函數 \(f(\mathbf {\vec x})\)
- 梯度 \(g(\mathbf {\vec x})=\nabla f(\mathbf {\vec x})\)
- 精度要求 \(e\)
- 輸出 \(f(\mathbf {\vec x})\) 的極小值 \(\mathbf {\vec x}^*\)
- 算法步驟:
- 選取初始 \(\mathbf {\vec x}^{<0>}\in \mathbb R^{n}\) , \(\mathbf G_0\) 爲正定對稱矩陣, \(k\) =0
- 計 \(\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})\)
- \(|\mathbf {\vec g}_k| \lt e\) ,則中止計算,獲得近似 \(\mathbf {\vec x}=\mathbf {\vec x}^*\)
- \(|\mathbf {\vec g}_k| \ge e\) ,則:
- 計算 \(\mathbf {\vec p}_k=-\mathbf G_k\mathbf {\vec g}_k\)
- 一維搜索:求 \(\epsilon_k\) : \(\epsilon_k=\min_{\epsilon \ge 0}f(\mathbf {\vec x}^{<k>}+\epsilon\mathbf {\vec p}_k)\)
- 設置 \(\mathbf {\vec x}^{<k+1>}=\mathbf {\vec x}^{<k>}+\epsilon_k\mathbf {\vec p}_k\)
- 計算 \(\mathbf {\vec g}_{k+1}=g(\mathbf {\vec x}^{<k+1>})\) 。若 \(|\mathbf {\vec g}_{k+1}| \lt \varepsilon\) , 則中止計算,獲得近似解 \(\mathbf {\vec x}=\mathbf {\vec x}^*\)
- 不然計算 \(\mathbf G_{k+1}\) ,置 \(k=k+1\) ,計算 \(\mathbf {\vec p}_k=-\mathbf G_k\mathbf {\vec g}_k\) 迭代
DFP算法中,每一 \(\mathbf {\vec x}\) 增長的方向 \(-\mathbf G_k \nabla_k\) 的方向。增長的幅度 \(\epsilon_k\) 決定,若跨度過大容易引起震盪
5.2 BFGS 算法
BFGS是最流行的擬牛頓算法。DFP算法中, \(\mathbf G_k\) 逼 \(\mathbf H^{-1}\) 。換個角度能夠用矩 \(\mathbf B_k\) 逼近海森矩 \(\mathbf H\) 。此時對應的擬牛頓條件爲 \(\mathbf B_{k+1}\vec \delta_k=\mathbf {\vec y}_k\) 。
因 \(\mathbf B_0\) 是給定的初始化條件,因此下標 \(k+1\) 開始
令 \(\mathbf B_{k+1}=\mathbf B_k+\mathbf P_k+\mathbf Q_k\) ,有 \(\mathbf B_{k+1}\vec \delta_k=\mathbf B_k\vec \delta_k+\mathbf P_k\vec \delta_k+\mathbf Q_k\vec \delta_k\)
能夠 \(\mathbf P_k\vec \delta_k=\mathbf {\vec y}_k,\mathbf Q_k\vec \delta_k=-\mathbf B_k\vec \delta_k\) 。尋找合適 \(\mathbf P_k,\mathbf Q_k\) ,能夠獲得BFGS算法矩陣 \(\mathbf B_{k+1}\) 的迭代公式:
\[\mathbf B_{k+1}=\mathbf B_k+\frac{\mathbf {\vec y}_k\mathbf {\vec y}_k^{T}}{\mathbf {\vec y}_k^{T}\vec \delta_k}-\frac{\mathbf B_k\vec \delta_k\vec \delta_k^{T}\mathbf B_k}{\vec \delta_k^{T}\mathbf B_k\vec \delta_k}\]
其中的向 \(\vec \delta_k,\mathbf {\vec y}_k\) 都是列向量
- 能夠證實, \(\mathbf B_0\) 是正定的,則迭代過程當中每一個矩 \(\mathbf B_k\) 都是正定的。
- BFGS算法:
- 輸入:
- 目標函數 \(f(\mathbf {\vec x})\)
- 梯度 \(g(\mathbf {\vec x})=\nabla f(\mathbf {\vec x})\)
- 精度要求 \(\ e\)
- 輸出 \(f(\mathbf {\vec x})\) 的極小值 \(\mathbf {\vec x}^*\)
- 算法步驟:
- 選取初始 \(\mathbf {\vec x}^{<0>}\in \mathbb R^{n}\) , \(\mathbf B_0\) 爲正定對稱矩陣, \(k\) =0
- 計 \(\mathbf {\vec g}_k=g(\mathbf {\vec x}^{<k>})\)
- \(|\mathbf {\vec g}_k| \lt e\) ,則中止計算,獲得近似 \(\mathbf {\vec x}=\mathbf {\vec x}^*\)
- \(|\mathbf {\vec g}_k| \ge e\) ,則:
BFPS算法中,每一 \(\mathbf {\vec x}\) 增長的方向 \(-\mathbf B_k^{-1} \nabla_k\) 的方向。增長的幅度 \(\epsilon_k\) 決定,若跨度過大容易引起震盪
5.3 Broyden 類算法
- 若 \(\mathbf G_k=\mathbf B_k^{-1},\mathbf G_{k+1}=\mathbf B_{k+1}^{-1}\) ,則對式子
\[\mathbf B_{k+1}=\mathbf B_k+\frac{\mathbf {\vec y}_k\mathbf {\vec y}_k^{T}}{\mathbf {\vec y}_k^{T}\vec \delta_k}-\frac{\mathbf B_k\vec \delta_k\vec \delta_k^{T}\mathbf B_k}{\vec \delta_k^{T}\mathbf B_k\vec \delta_k}\] 使用兩次Sherman-Morrison
公式可得:
\[\mathbf G_{k+1}=(\mathbf I-\frac{\vec \delta_k\mathbf {\vec y}_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k})\mathbf G_k(\mathbf I-\frac{\vec \delta_k\mathbf {\vec y}_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k})^{T}+\frac{\vec \delta_k\vec \delta_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k}\] > 其中的向 \(\vec \delta_k,\mathbf {\vec y}_k\) 都是列向量
- 令DFP算法得到 \(\mathbf G_{k+1}\) 的迭代公式記做
\[\mathbf G^{DFP}=\mathbf G_k+\frac{\vec \delta_k\vec \delta_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k}-\frac{\mathbf G_k\mathbf {\vec y}_k \mathbf {\vec y}_k^{T} \mathbf G_k}{\mathbf {\vec y}_k^{T} \mathbf G_k \mathbf {\vec y}_k}\] 由BFGS算法得到 \(\mathbf G_{k+1}\) 的迭代公式記做
\[\mathbf G^{BFGS}=(\mathbf I-\frac{\vec \delta_k\mathbf {\vec y}_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k})\mathbf G_k(\mathbf I-\frac{\vec \delta_k\mathbf {\vec y}_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k})^{T}+\frac{\vec \delta_k\vec \delta_k^{T}}{\vec \delta_k^{T}\mathbf {\vec y}_k}\] 他們都知足擬牛頓條件,因此他們的線性組合 \(\mathbf G_{k+1}= \alpha \mathbf G^{DFP}+(1- \alpha)\mathbf G^{BFGS}\) 也知足擬牛頓條件,並且是正定的。其 \(0 \le \alpha \le 1\) 。
這樣得到了一族擬牛頓法,稱爲Broyden類算法
Sherman-Morrison
公式:假 \(\mathbf A\) \(n\) 階可逆矩陣 \(\mathbf {\vec u},\mathbf {\vec v}\) \(n\) 維列向量, \(\mathbf A+\mathbf {\vec u}\mathbf {\vec v}^{T}\) 也是可逆矩陣,則:
\[(\mathbf A+\mathbf {\vec u}\mathbf {\vec v}^{T})^{-1}=\mathbf A^{-1}-\frac{\mathbf A^{-1}\mathbf {\vec u}\mathbf {\vec v}^{T}\mathbf A^{-1}}{1+\mathbf {\vec v}^{T}\mathbf A^{-1}\mathbf {\vec u}}\]
6、 約束優化
6.1 原理
- 在有的最優化問題中,但願輸 \(\mathbf {\vec x}\) 位於特定的集 \(\mathbb S\) 中,這稱做約束優化問題。
- 集 \(\mathbb S\) 內的點 \(\mathbf {\vec x}\) 稱做可行解
- 集合 \(\mathbb S\) 也稱做可行域。
- 約束優化的一個簡單方法是:對梯度降低法進行修改。
- 每次迭代後,將獲得的新 \(\mathbf {\vec x}\) 映射到集 \(\mathbb S\) 中
- 若是使用線性搜索:則每次只搜索那些使得新 \(\mathbf {\vec x}\) 位於集 \(\mathbb S\) 中的那 \(\epsilon\)
- 另外一個作法:將線性搜索獲得的新的 \(\mathbf {\vec x}\) 映射到集合 \(\mathbb S\) 中。
- 或者:在線性搜索以前,將梯度投影到可行域的切空間內
6.2 KKT 方法
- 在約束最優化問題中,經常利用拉格朗日對偶性將原始問題轉換爲對偶問題,經過求解對偶問題而獲得原始問題的解。
- 約束最優化問題的原始問題:
假 \(f(\mathbf {\vec x}),c_i(\mathbf {\vec x}),h_j(\mathbf {\vec x})\) 是定義 \(\mathbb R^{n}\) 上的連續可微函數。考慮約束最優化問題:
\[\min_{\mathbf {\vec x} \in \mathbb R^{n}}f(\mathbf {\vec x})\\ s.t. \quad c_i(\mathbf {\vec x}) \le 0,i=1,2,\cdots,k \;;\quad h_j(\mathbf {\vec x})=0,j=1,2,\cdots,l\] 可行域由等式和不等式肯定
\[\mathbb S=\{\mathbf {\vec x} \mid c_i(\mathbf {\vec x}) \le 0,i=1,2,\cdots,k \;;\quad h_j(\mathbf {\vec x})=0,j=1,2,\cdots,l\}\]
6.2.1 原始問題
- 引入拉格朗日函數:
\[L(\mathbf {\vec x},\vec \alpha,\vec\beta)=f(\mathbf {\vec x})+\sum_{i=1}^{k}\alpha_ic_i(\mathbf {\vec x})+\sum_{j=1}^{l}\beta_jh_j(\mathbf {\vec x})\] 這 \(\mathbf {\vec x}=(x^{(1)},x^{(2)},\cdots,x^{(n)})^{T} \in \mathbb R^{n}, \alpha_i,\beta_j\) 是拉格朗日乘子 \(\alpha_i \ge 0\)
- \(L(\mathbf {\vec x}, \vec \alpha\vec\beta)\) 是 \(\mathbf {\vec x}, \vec \alpha,\vec \beta\) 的多元非線性函數
- 定義函數:
\[\theta_P(\mathbf {\vec x})=\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}L(\mathbf {\vec x},\vec \alpha, \vec\beta)\] 其中下 \(P\) 表示原始問題。則有:
\[ \theta_P(\mathbf {\vec x})= \begin{cases} f(\mathbf {\vec x}), & \text{if $\mathbf {\vec x}$ statisfy original problem's constraint} \\ +\infty, & \text{or else.} \end{cases}\]
- \(\mathbf {\vec x}\) 知足原問題的約束,則很容易證 \(L(\mathbf {\vec x},\vec \alpha,\vec\beta)=f(\mathbf {\vec x})+\sum_{i=1}^{k}\alpha_ic_i(\mathbf {\vec x}) \le f(\mathbf {\vec x})\) ,等號 \(\alpha_i=0\) 時取到
- \(\mathbf {\vec x}\) 不知足原問題的約束:
- 若不知足 $ c_i(\mathbf {\vec x}) \le 0$ :設違反的爲 \(c_{i0}(\mathbf {\vec x}) \gt 0\) ,則令 \(\vec \alpha_{i0} \rightarrow \infty\) , \(L(\mathbf {\vec x},\vec \alpha,\vec\beta)=f(\mathbf {\vec x})+\sum_{i=1}^{k}\alpha_ic_i(\mathbf {\vec x}) \rightarrow \infty\)
- 若不知足 $ h_j(\mathbf {\vec x}) = 0$ : 設違反的爲 \(h_{j0}(\mathbf {\vec x}) \ne 0\) ,則令 \(\vec\beta_{j0}h_{j0}(\mathbf {\vec x}) \rightarrow \infty\) , \(L(\mathbf {\vec x},\vec \alpha,\vec\beta)=f(\mathbf {\vec x})+\sum_{i=1}^{k}\alpha_ic_i(\mathbf {\vec x})+\vec\beta_{j0}h_{j0}(\mathbf {\vec x}) \rightarrow \infty\)
- 考慮極小化問題:
\[\min_{\mathbf {\vec x}} \theta_P(\mathbf {\vec x})=\min_{\mathbf {\vec x}}\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}L(\mathbf {\vec x},\vec \alpha, \vec\beta)\] 則該問題是與原始最優化問題是等價的,即他們有相同的問題。
- \(\min_{\mathbf {\vec x}}\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}L(\mathbf {\vec x},\vec \alpha, \vec\beta)\) 稱爲廣義拉格朗日函數的極大極小問題。
- 爲了方便,定義原始問題的最優值爲:
\[p^{*}=\min_{\mathbf {\vec x}}\theta_P(\mathbf {\vec x})\]
6.2.2 對偶問題
- 對偶問題:定 \(\theta_D(\vec \alpha,\vec\beta)=\min_\mathbf {\vec x} L(\mathbf {\vec x},\vec \alpha,\vec\beta)\) 。考慮極大 \(\theta_D(\vec \alpha,\vec\beta)\) ,即:
\[\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}\theta_D(\vec \alpha,\vec\beta)=\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0} \min_{\mathbf {\vec x}}L(\mathbf {\vec x},\vec \alpha, \vec\beta)\]
- 問題 \(\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0} \min_{\mathbf {\vec x}}L(\mathbf {\vec x},\vec \alpha, \vec\beta)\) 稱爲廣義拉格朗日函數的極大極小問題。
- 能夠將廣義拉格朗日函數的極大極小問題表示爲約束最優化問題:
\[\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}\theta_D(\vec \alpha,\vec\beta)=\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0} \min_{\mathbf {\vec x}}L(\mathbf {\vec x},\vec \alpha, \vec\beta)\\ s.t. \alpha_i \ge 0, i=1,2,\cdots,k\] 稱爲原始問題的對偶問題。
- 定義對偶問題的最優值:
\[d^*=\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}\theta_D(\vec \alpha,\vec\beta)\]
6.2.3 原始問題與對偶問題關係
- 定理一:若原問題和對偶問題具備最優值,則:
\[d^{*}=\max_{\vec \alpha,\vec\beta\;:\;\vec \alpha_i \ge 0}\min_{\mathbf {\vec x}}L(\mathbf {\vec x},\vec \alpha, \vec\beta) \le \min_{\mathbf {\vec x}}\max_{\vec \alpha,\vec\beta\;:\;\vec \alpha_i \ge 0}L(\mathbf {\vec x},\vec \alpha, \vec\beta)=p^{*}\]
- 推論一: \(\mathbf {\vec x}^{*}\) 爲原始問題的可行解, \(\theta_P(\mathbf {\vec x}^{*})\) 的值 \(p^{*}\) \(\vec \alpha^{*},\vec\beta^{*}\) 爲對偶問題的可行解 \(\theta_D(\vec \alpha^{*},\vec\beta^{*})\) 值 \(d^{*}\) 。
若是 \(p^{*}=d^{*}\) , \(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*}\) 分別爲原始問題和對偶問題的最優解。
- 定理二:假設函 \(f(\mathbf {\vec x})\) \(c_i(\mathbf {\vec x})\) 爲凸函數 \(h_j(\mathbf {\vec x})\) 是仿射函數;而且假設不等式約 \(c_i(\mathbf {\vec x})\) 是嚴格可行的,即存 \(\mathbf {\vec x}\) ,對於所 \(i\) \(c_i(x) \lt 0\) 。
則存 \(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*}\) ,使得 \(\mathbf {\vec x}^{*}\) 是原始問 \(\min_{\mathbf {\vec x}}\theta_P(\mathbf {\vec x})\) 的解 \(\vec \alpha^{*},\vec\beta^{*}\) 是對偶問 \(\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}\theta_D(\vec \alpha,\vec\beta)\) 的解,並 \(p^{*}=d^{*}=L(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*})\)
- 定理三:假設函 \(f(\mathbf {\vec x})\) \(c_i(\mathbf {\vec x})\) 爲凸函數 \(h_j(\mathbf {\vec x})\) 是仿射函數;而且假設不等式約 \(c_i(\mathbf {\vec x})\) 是嚴格可行的,即存 \(\mathbf {\vec x}\) ,對於所 \(i\) \(c_i(x) \lt 0\) 。
則存 \(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*}\) ,使 \(\mathbf {\vec x}^{*}\) 是原始問 \(\min_{\mathbf {\vec x}}\theta_P(\mathbf {\vec x})\) 的解 \(\vec \alpha^{*},\vec\beta^{*}\) 是對偶問 \(\max_{\vec \alpha,\vec\beta\;:\;\alpha_i \ge 0}\theta_D(\vec \alpha,\vec\beta)\) 的解的充要條件是 \(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*}\) 知足下面的Karush-kuhn-Tucker(KKT)
條件:
\[\nabla_\mathbf {\vec x}L(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*})=0\\ \nabla_\vec \alpha L(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*})=0\\ \nabla_\vec\beta L(\mathbf {\vec x}^{*},\vec \alpha^{*},\vec\beta^{*})=0\\ \vec \alpha^{*}_ic_i(\mathbf {\vec x}^{*})=0,i=1,2,\cdots,k\\ c_i(\mathbf {\vec x}^{*})\le 0,i=1,2,\cdots,k\\ \vec \alpha^{*}_i \ge 0,i=1,2,\cdots,k\\ h_j(\mathbf {\vec x}^{*})= 0,j=1,2,\cdots,l\]
- 仿射函數:仿射函數即由1階多項式構成的函數。
通常形式 \(f(\mathbf {\vec x}) = \mathbf A \mathbf {\vec x} + b\) ,這裏 \(\mathbf A\) 是一 \(m\times k\) 矩陣 \(\mathbf {\vec x}\) 是一 \(k\) 維列向量 \(b\) 是一 \(m\) 維列向量
- 它實際上反映了一種從 \(k\) 維到 \(m\) 維的空間映射關係。
- 凸函數: \(f\) 爲定義在區 \(I\) 上的函數,若 \(I\) 上的任意兩 \(\mathbf {\vec x}_1,\mathbf {\vec x}_2\) 和任意的實 \(\lambda \in (0,1)\) ,總 \(f(\lambda \mathbf {\vec x}_1+(1-\lambda)\mathbf {\vec x}_2) \ge \lambda f(\mathbf {\vec x}_1)+(1-\lambda)f(\mathbf {\vec x}_2)\) \(f\) 稱 \(I\) 上的凸函數
本文轉載自華校專老師博客,博客地址:http://www.huaxiaozhuan.com/