核方法

時間 2020-12-27

標籤機器學習简体版

原文原文鏈接

拉格朗日對偶（Lagrange duality）

對於凸優化問題來說，無約束的優化一般可以使用一階導數爲零求解。而對於有約束條件的凸優化來說，拉格朗日對偶理論是對凸的最優解的研究。

假設 $f (x), c_{i} (x), h_{j} (x)$ 是定義在 $R^{n}$ 上的連續可微函數()，考慮約束最優化問題：

\begin{aligned} (1) & min_{x \in R^{n}} & f (x) \\ (2) & s . t . & c_{i} (x) \leq 0, i = 1, 2, \dots, k \\ (3) & h_{j} (x) = 0, j = 1, 2, \dots, k \end{aligned}

拉格朗日乘子

引入一個人工構造的拉格朗日函數，廣義拉格朗日函數（generalized Lagrange function）:

L (x, α, β) = f (x) + \sum_{i = 0}^{k} α_{i} c_{i} (x) + \sum_{j = 1}^{l} β_{j} h_{j} (x)

x = (x^{(1)}, x^{(2)}, \dots, x^{(n)}) \in R^{n}, α_{i}, β_{j}

是拉格朗日乘子， 特別要求

α_{i} \geq 0

總結：通過拉格朗日的辦法重新定義一個無約束問題這個無約束問題等價於原來的約束優化問題，從而將約束問題無約束化。

原問題與對偶問題

原問題（The primal problem）

$min_{x} \underset{c a l l t h i s θ_{P} (x)}{\underset{⏟}{[max_{α, β : α_{i} \geq 0} L (x, α, β)]}} = min_{x} θ_{P} (x)$
在上述方程中，函數 $θ_{P} (x)$ 稱爲原目標，右端無約束極小化問題就原問題。假設原問題的最優值爲： $p^{*} = min_{x} θ_{P} (x)$
對偶問題（The dual problem）
把上面式子最大化和最小化切換一下，就可以得到：

$max_{α, β : α_{i} \geq 0} \underset{c a l l t h i s θ_{D} (α, β)}{\underset{⏟}{[min_{x} L (x, α, β)]}} = max_{α, β : α_{i} \geq 0} θ_{D} (α, β)$
在上述方程中，函數 $θ_{D} (x)$ 稱爲對偶目標，右邊就是有約束極大化問題即對偶問題。假設對偶問題的最優值爲： $d^{*} = max_{α, β : α_{i} \geq 0} θ_{D} (α, β)$

原始問題與對偶問題的關係

若原始問題與對偶問題都有最優值，則：

\begin{aligned} (4) & d^{*} & = max_{α, β : α_{i} \geq 0} min_{x} L (x, α, β) \\ (5) & \leq min_{x} max_{α, β : α_{i} \geq 0} L (x, α, β) = p^{*} \end{aligned}

從上面能得出原始問題的最優值不小於對偶問題的最優值。但是我們要通過對偶問題來求解原始問題，就必須使得原始問題的最優值與對偶問題的最優值相等。上面簡單來說就是：

設 $x^{*} α^{*}, β^{*}$ 分別是原始問題和對偶問題的可行解，如果 $d^{*} = p^{*}$ ，那麼 $x^{*}$ 和 $α^{*}, β^{*}$ 都是原始問題和對偶問題的最優解。

總結：顯然原問題與對偶問題是不等價的，我們需要讓他滿足一些條件來達到等價。而滿足 $d^{*} = p^{*}$ ，即需要KKT條件。

KKT條件

對於原始問題和對偶問題，假設函數 $f (x)$ 和 $c_{i} (x)$ 是凸函數， $h_{i} (x)$ 是仿射函數（即由一階多項式構成的函數， $f (x) = A x + b$ , $A$ 是矩陣， $x$ , $b$ 是向量；並且假設不等式約束 $c_{i} (x)$ 是嚴格可行的，即存在 $x$ ，對所有 $i$ 有 $c_{i} (x) < 0$ ，則 $x^{*}$ 和 $α^{*}, β^{*}$ 分別是原始問題和對偶問題的最優解的充分必要條件是 $x^{*}$ 和 $α^{*}, β^{*}$ 滿足下面的 Karush-Kuhn-Tucker(KKT) 條件：