吳恩達機器學習：神經網絡 | 反向傳播算法

時間 2020-12-27

標籤吳恩達 Coursera 神經網絡反向傳播 Python 欄目程序員峯會简体版

原文原文鏈接

上一週我們學習了 神經網絡 | 多分類問題。我們分別使用 邏輯迴歸 和 神經網絡 來解決多分類問題，並瞭解到在特徵數非常多的情況下，神經網絡是更爲有效的方法。這周的課程會給出訓練 神經網絡 所使用的 代價函數，並使用 反向傳播 算法來計算梯度。筆者會給出 反向傳播 算法中重要的思路和推導，但不會包含所有的計算步驟。

點擊 課程視頻 你就能不間斷地學習 Ng 的課程，關於課程作業的 Python 代碼已經放到了 Github 上，點擊 課程代碼 就能去 Github 查看（無法訪問 Github 的話可以點擊 Coding 查看），代碼中的錯誤和改進歡迎大家指出。

以下是 Ng 機器學習課程第四周的筆記。

代價函數

假設我們的多分類問題有 $K$ 個分類，神經網絡共有 $L$ 層，每一層的神經元個數爲 $s_{l}$ ，那麼神經網絡的 代價函數 爲：

J (Θ) = - \frac{1}{m} \sum_{i = 1}^{m} \sum_{k = 1}^{K} (y_{k}^{(i)} l o g (h_{Θ} (x^{(i)}))_{k} + (1 - y_{k}^{(i)}) l o g (1 - (h_{Θ} (x^{(i)}))_{k})) + \frac{λ}{2 m} \sum_{l = 1}^{L - 1} \sum_{i = 1}^{s_{l}} \sum_{j = 1}^{s_{l + 1}} (Θ_{j i}^{(l)})^{2}

其中的第二項爲 正則化 項，是網絡中所有權值的平方和。第一項與邏輯迴歸中的 代價函數 類似，但這裏我們需要累加所有輸出神經元的誤差。

梯度計算

爲了能夠使用 梯度下降 算法來訓練網絡，我們需要計算代價函數的梯度。一種很直觀的方法就是使用數值計算，對於某個 $Θ_{i j}$ ，給它加上減去一個很小的量 $ϵ$ 來計算梯度：

\frac{\partial J (θ)}{\partial θ_{j}} \approx \frac{J (θ_{1}, \dots, θ_{j} + ϵ, \dots, θ_{n}) - J (θ_{1}, \dots, θ_{j} - ϵ, \dots, θ_{n})}{2 ϵ}

但稍微分析一下算法的複雜度就能知道，這樣的方法十分緩慢。對於每一組數據，我們需要計算所有權值的梯度，總的計算次數 = 訓練數據個數 x 網絡權值個數 x 前向傳播計算次數 。在通常情況下這樣的複雜度是無法接受的，所以我們僅使用這個方法來驗證 反向傳播 算法計算的梯度是否正確。

鏈式法則

爲了能夠理解之後對於 反向傳播 公式的推導，我們首先要了解一個關於多元複合函數求導的 鏈式法則。對於多元函數 $z = f (u, v)$ ，其中 $u = h (x, y)$ ， $v = g (x, y)$ ，那麼：

\frac{\partial z}{\partial x} = \frac{\partial z}{\partial u} \frac{\partial u}{\partial x} + \frac{\partial z}{\partial v} \frac{\partial v}{\partial x} \frac{\partial z}{\partial y} = \frac{\partial z}{\partial u} \frac{\partial u}{\partial y} + \frac{\partial z}{\partial v} \frac{\partial v}{\partial y}

鏈式法則 告訴我們有多個層次的多元複合函數，下一層次的導數可以由上一層次推得。

上圖中筆者有意多加了一層，這裏 $p$ 是 $u, v$ 的函數， $q$ 是 $u, v$ 的函數， $z$ 是 $p, q$ 的函數。對於要計算的 $\frac{\partial z}{\partial x}$ 與 $\frac{\partial z}{\partial y}$ ，上式仍成立，原因是我們可以把 $z$ 看作 $u, v$ 的函數。這相當於我們把：