【機器學習之數學】03 有約束的非線性優化問題——拉格朗日乘子法、KKT條件、投影法

時間 2019-12-08

標籤機器學習之數學約束非線性優化問題拉格朗日 kkt 條件投影简体版

原文原文鏈接

目錄html

梯度降低法、最速降低法、牛頓法等迭代求解方法，都是在無約束的條件下使用的，而在有約束的問題中，直接使用這些梯度方法會有問題，如更新後的值不知足約束條件。git

那麼問題來了，如何處理有約束的優化問題？大體能夠分爲如下兩種方式：github

將有約束的問題轉化爲無約束的問題，如拉格朗日乘子法和KKT條件；
對無約束問題下的求解算法進行修改，使其可以運用在有約束的問題中，如對梯度降低法進行投影，使得更新後的值都知足約束條件。

將有約束問題轉化爲無約束問題

拉格朗日法

僅含等式約束的優化問題
\[ \begin{array}{cl}{\text { minimize }} & {f(\boldsymbol{x})} \\ {\text { subject to }} & {\boldsymbol{h}(\boldsymbol{x})=\mathbf{0}}\end{array} \]算法

其中，\(x \in \mathbb{R}^n\)，\(f : \mathbb{R}^{n} \rightarrow \mathbb{R}\)，\(\boldsymbol{h} : \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}, \boldsymbol{h}=\left[h_{1}, \ldots, h_{m}\right]^{\top}, \text { and } m \leq n\)。機器學習

該問題的拉格朗日函數爲：
\[ l(\boldsymbol{x}, \boldsymbol{\lambda})=f(\boldsymbol{x})+\boldsymbol{\lambda}^{\top} \boldsymbol{h}(\boldsymbol{x}) \]函數

FONC：對拉格朗日函數 \(l(\boldsymbol{x}, \boldsymbol{\lambda})\) 求偏導數，令偏導數都等於 0，求得的解必然知足原問題的等式約束，能夠從這些解裏面尋找是否有局部最優解。這是求得局部最優解的一階必要條件。學習

拉格朗日條件：（分別對 \(\bm x\) 和 \(\bm \lambda\) 求偏導）
\[ \begin{array}{l}{D_{x} l\left(\boldsymbol{x}^{*}, \boldsymbol{\lambda}^{*}\right)=\mathbf{0}^{\top}} \\ {D_{\lambda} l\left(\boldsymbol{x}^{*}, \boldsymbol{\lambda}^{*}\right)=\mathbf{0}^{\top}}\end{array} \]優化

上式中，對 \(\lambda\) 求偏導數獲得的就是等式約束。spa

拉格朗日條件是必要而非充分條件，即知足上述方程的點 \(\boldsymbol x^{*}\) 不必定是極值點。htm

KKT條件

既含等式約束又含不等式約束的優化問題：
\[ \begin{array}{rl}{\operatorname{minimize}} & {f(\boldsymbol{x})} \\ {\text { subject to }} & {\boldsymbol{h}(\boldsymbol{x})=\mathbf{0}} \\ {} & {\boldsymbol{g}(\boldsymbol{x}) \leq \mathbf{0}}\end{array} \]

其中，\(f : \mathbb{R}^{n} \rightarrow \mathbb{R}\)，\(\boldsymbol{h} : \mathbb{R}^{n} \rightarrow \mathbb{R}^{m}, m \leq n\)，而且 \(\boldsymbol{g} : \mathbb{R}^{n} \rightarrow \mathbb{R}^{p}\)。

將該問題轉化爲拉格朗日形式：
\[ l(\boldsymbol{x}, \boldsymbol{\lambda})=f(\boldsymbol{x})+\boldsymbol{\lambda}^{\top} \boldsymbol{h}(\boldsymbol{x}) +\boldsymbol{\mu}^{\top} \boldsymbol{g}(\boldsymbol{x}) \]

設 \(\bm x^{*}\) 是原問題的一個局部極小點，則必然存在 \(\bm{\lambda}^{* \top} \in \mathbb{R}^m\)，\(\bm{\mu}^{* \top} \in \mathbb{R}^p\)，使得下列KKT條件成立：

\(\bm {\mu}^{*} \geq 0\)
\(D f\left(\boldsymbol{x}^{*}\right)+\boldsymbol{\lambda}^{* \top} D \boldsymbol{h}\left(\boldsymbol{x}^{*}\right)+\boldsymbol{\mu}^{* \top} D \boldsymbol{g}\left(\boldsymbol{x}^{*}\right)=\mathbf{0}^{\top}\)
\(\boldsymbol{\mu}^{* \top} \boldsymbol{g}\left(\boldsymbol{x}^{*}\right)=0\)
\({\boldsymbol{h}(\boldsymbol{x}^*)=\mathbf{0}}\)
\({\boldsymbol{g}(\boldsymbol{x}^*) \leq \mathbf{0}}\)

KKT條件中，\(\bm{\lambda}^{*}\) 是拉格朗日乘子向量，\(\bm{\mu}^{*}\) 是KKT乘子向量，\(\bm{\lambda}^{*}\) 和 \(\bm{\mu}^{*}\) 的元素分別稱爲拉格朗日乘子和KKT乘子。

拉格朗日法更新方程

將含約束的優化問題轉化爲拉格朗日形式後，咱們能夠用更新方程對該問題進行迭代求解。

這也是一種梯度算法，但拉格朗日乘子、KKT 乘子的更新和自變量 \(\bm x\) 的更新不一樣，自變量 \(\bm x\) 繼續採用梯度降低法更新，而拉格朗日乘子、KKT 乘子的更新方程以下：
\[ \boldsymbol{\lambda}^{(k+1)}=\boldsymbol{\lambda}^{(k)}+\beta_{k} \boldsymbol{h}\left(\boldsymbol{x}^{(k)}\right), \\ \boldsymbol{\mu}^{(k+1)}=\left[\boldsymbol{\mu}^{(k)}+\beta_{k} \boldsymbol{g}\left(\boldsymbol{x}^{(k)}\right)\right]_{+} \]

其中，\([\cdot]_{+}=\max \{\cdot, 0\}\)。

凸優化問題下的拉格朗日法

拉格朗日乘子法和KKT條件在通常的含約束條件的優化問題中，都只是一階必要條件，而在凸優化問題中，則變成了充分條件。

凸優化問題指的是目標函數是凸函數，約束集是凸集的優化問題。線性規劃、二次規劃（目標函數爲二次型函數、約束方程爲線性方程）均可以歸爲凸優化問題。

凸優化問題中，局部極小點就是全局極小點。極小點的一階必要條件就是凸優化問題的充分條件。

罰函數法

updating...

對梯度算法進行修改，使其運用在有約束條件下

投影法

梯度降低法、最速降低法、牛頓法等優化算法都有通用的迭代公式：
\[ \boldsymbol{x}^{(k+1)}=\boldsymbol{x}^{(k)}+\alpha_{k} \boldsymbol{d}^{(k)} \]

其中，\(\boldsymbol{d}^{(k)}\) 是關於梯度 \(\nabla f(\bm x^{(k)})\) 的函數。

考慮優化問題：
\[ \begin{array}{cl}{\operatorname{minimize}} & {f(\boldsymbol{x})} \\ {\text { subject to }} & {\boldsymbol{x} \in \Omega}\end{array} \]

在上述有約束的優化問題中，\(\boldsymbol{x}^{(k)}+\alpha_{k} \boldsymbol{d}^{(k)}\) 可能不在約束集 \(\Omega\) 內，這是梯度降低等方法沒法使用的緣由。

而投影法作的是，若是 \(\boldsymbol{x}^{(k)}+\alpha_{k} \boldsymbol{d}^{(k)}\) 跑到約束集 \(\Omega\) 外面去了，那麼將它投影到約束集內離它最近的點；若是 \(\boldsymbol{x}^{(k)}+\alpha_{k} \boldsymbol{d}^{(k)} \in \Omega\)，那麼正常更新便可。

投影法的更新公式爲：
\[ \boldsymbol{x}^{(k+1)}=\boldsymbol{\Pi}\left[\boldsymbol{x}^{(k)}+\alpha_{k} \boldsymbol{d}^{(k)}\right] \]

其中 \(\bm \Pi\) 爲投影算子，\(\bm \Pi[\bm x]\) 稱爲 \(\bm x\) 到 \(\Omega\) 上的投影。

梯度降低法 to 投影梯度法

梯度降低法的迭代公式爲：
\[ \boldsymbol{x}^{(k+1)}=\boldsymbol{x}^{(k)}-\alpha_{k} \nabla f\left(\boldsymbol{x}^{(k)}\right) \]

將投影算法引入梯度降低法，可得投影梯度法，迭代公式以下：
\[ \boldsymbol{x}^{(k+1)}=\boldsymbol{\Pi}\left[\boldsymbol{x}^{(k)}-\alpha_{k} \nabla f\left(\boldsymbol{x}^{(k)}\right)\right] \]

正交投影算子