《神經網絡與深度學習》：第一章使用神經網絡來識別手寫數字（一）

時間 2019-11-12

原文原文鏈接

譯者：本文爲轉載翻譯自免費英文電子書《Neural Networks and Deep Learning》，將逐步翻譯成中文，原文連接：http://neuralnetworksanddeeplearning.com/chap1.htmlhtml

因爲本章節很長，編輯器很卡，翻譯時我會分紅幾個小節，這是第一小節。程序員

人類的視覺系統是很神奇的。考慮一下下面幾個手寫的數字：面試

大多數人一眼就認出這些數字是504192。在人的每一個大腦半球，人類有一個主要的視覺皮質，被稱爲 V1，包含 1.4億個神經元，有幾百億的神經鏈接。人類的視覺系統不單隻涉及V1，並且涉及到一整個視覺皮質 - V2, V3, V4, 和 V5 - 它們一步步處理着複雜的圖像。咱們大腦是一個超級計算機，通過幾十億年的演變，逐漸適應這個可視化的世界。識別手寫數字不是那麼容易的。相反地，人類的處理能力是驚人的，人類善於使咱們理解看到的東西。幾乎全部工做都是無心識地進行。咱們一般不會佩服本身的視覺系統怎樣解決怎麼困難的問題。視覺模式識別的困難性顯而易見，若是你嘗試寫一個程序來識別相似下面數字。看起來簡單的東西實現起來很是困難。簡單直觀的例子是咱們怎麼識別形狀。 - "數字 9 頭頂上有一個圈，右下方是一豎" - 用算法來表達不是那麼容易的。當你嘗試讓這些規則變得很精確，你很快就會在異常、警告和例外的困境中蒙圈。它看起來毫無解決的但願。算法

神經網絡以不一樣的方式解決這個問題。思路是拿大量的手寫數字來做爲訓練樣本，小程序

而後演化爲一個能夠從樣本中學習的系統，從另外的角度來說，神經網絡使用樣原本自動推理手寫識別的規則。進一步，經過增長訓練樣本，網絡能夠學習更多手寫文字，改善它識別的準確度。我只是在上面展現了100個用於訓練的數字，也許咱們能夠經過使用幾千、幾百萬、幾十億的訓練樣原本建一個更好的手寫識別器。網絡

在這一節，咱們會寫一個程序來實現一個學習手寫數字的神經網絡。這個程序只有74行代碼，而且沒有用到第三方的神經網絡庫。但這個小程序的識別精度能夠達到96%，並且是在沒有人的介入的狀況下達到的。而後進一步，在接下來的章節中，咱們會改進，使程序的精度達到99%。事實上，最好的商業應用神經網絡能夠應用在銀行的帳單處理中，以及郵局的地址識別。架構

咱們專一於講解手寫識別，由於這是一個學習神經網絡的很是棒的原型。手寫識別做爲學習例子有個好處：有挑戰性 - 識別手寫數字是一個不小的本領 - 但不須要很是複雜的解決方案，也不須要海量計算那麼困難。進一步講，這是一個發展高級計算，例如深度學習的很好的途徑。這這本書的整個過程，咱們會重複地提到手寫識別的問題。這本書的後面，咱們會討論怎樣將這些思想應用到計算機視覺方面，人機對話和天然語言處理，以及其餘領域。編輯器

固然，若是這節的關鍵在於寫一個程序來識別手寫數字，那麼這節內容會短不少。但在此期間，咱們會引出不少關鍵的神經網絡思想，包括兩種重要的人工神經網絡 (感知網絡和 sigmoid 神經網絡)，以及標準的神經網絡學習算法，例如梯度降低算法。在此期間，我會集中講解爲何神經網絡的原理，讓你從直觀上認識神經網絡。我不止給你簡單展現基本的機制，我須要囉嗦一大段。囉嗦是值得的，但願你會理解更加深入。從這章節，你能夠理解什麼是深度學習，爲何它那麼重要。函數

感知器

什麼是神經網絡？爲了開始，我會解釋一種叫感知網絡的神經網絡。感知網絡在1950到1960左右被科學家 Frank Rosenblatt提出，它受到 Warren McCulloch 和 Walter Pitts早期研究成果的啓發。今天，這種網絡以及被其它種類的神經網絡代替了 - 在這本書中，更加先進的主流使用的神經網絡是sigmoid 神經網絡。咱們很快就介紹到它了。但爲了明白爲何會出現 sigmoid 網絡，首先要明白什麼是感知網絡。工具

那麼感知網絡是怎樣工做的呢？感知網絡有一個或以上的輸入

在下面的例子，展現了感知網絡有三個輸入，

$\begin{array}{rcl} (1) & output & = & {\begin{cases} 0 & if \sum_{j} w_{j} x_{j} \leq threshold \\ 1 & if \sum_{j} w_{j} x_{j} > threshold \end{cases} \end{array}$ $\begin{array}{rcl} (1) & output & = & {\begin{cases} 0 & if \sum_{j} w_{j} x_{j} \leq threshold \\ 1 & if \sum_{j} w_{j} x_{j} > threshold \end{cases} \end{array}$

輸出=1 若是

這是基本的數學模型。你能夠這樣理解感知網絡，它是一個經過衡量各類因素的重要程度來做決定的設備。我舉個例子，不是很現實的例子，但人容易明白，稍後咱們會了解到更加現實的例子。假如週末要來了，你據說你所在將舉辦一個奶酪節。你很喜歡奶酪，你糾結是否要去這個奶酪節看看。你可能會衡量三個因素來決定是否要去：

天氣是否下雨
你的男友或者女友會不會陪你去
奶酪節現場是否有公共交通工具 (假如你沒有私家車)

如今，假如你很是喜歡奶酪，你固然樂於去奶酪節現場，即便你男/女友對此不感興趣，或者交通不是特別方便。但可能你很是討厭下雨天，若是下雨的話你對什麼節之類喪失興趣。你能夠用感知網絡來做這種決策的建模。其中的一個建模方法是選擇一個圈子

經過不一樣的權重和閾值，咱們能夠獲得不一樣的決策模型。例如，假如你的閾值選了3。那麼感知網絡會認爲你應該去，不管天氣狀況、交通情況、是否有朋友陪伴。換言之，這變成了另一個決策模型了。減小閾值意味着你更想去奶酪節。

顯然，感知網絡不是人類完整的決策模型。但至少證實了感知網絡能夠經過設置不一樣條件的權重來作決策。並且它看起來能夠經過複雜的網絡來做出穩定的決策：

很意外，當我定義感知網絡的時候，我說過感知網絡只有一個輸出。在上面的感知網絡看起來好像有不少個輸出。事實上，它們依然只有一個輸出。多個輸出都指向下一個網絡做爲下一個網絡的輸入。畫一條想而後分開兩條並不難。

咱們簡化地描述感知器。

output = 0 if w \cdot x + b \leq 0

output = 1 if w \cdot x + b > 0

我將感知器描述爲衡量各類因素來作決策的一種方法。感知器也能夠用於計算基本的邏輯函數例如與門AND, 或門 OR, 和與非門NAND。例如，假如你有一個感知器有兩個輸入的，每個輸入的權重都是-2，偏移量爲

與非門 NAND的例子代表咱們可使用感知器來計算簡單的邏輯功能。事實上，咱們可使用感知器的網絡來計算任何的邏輯函數。由於非門在計算機領域是通用的，也就是說咱們可使用非門來實現任意計算。例如咱們可使用非門來創建一個用於兩個位相加的迴路，x1和x2。這須要計算按位相加

加法器的例子證實了一個感知器怎樣用於模擬一個包含不少個與非門的電路。由於與非門 NAND 對於計算是通用的，因此能夠說感知器對計算也是通用的。

感知器的計算通用性同時使人安慰和失望。使人安慰是由於它告訴咱們感知器網絡能夠和其它計算設備那麼強大。但使人失望的是，由於它看起來僅僅是一種新的與非門。這幾乎不上什麼大新聞！

然而，狀況比看起來要好。結果是咱們能夠設計出能夠自動調整神經網絡權重和偏移量的學習算法。這種調整發生在響應外界的刺激時，沒有程序員的直接介入。這個學習算法可讓咱們經過一種徹底不一樣與傳統邏輯門的方式來使用神經網絡。而不是明確的與非門和其它邏輯門的電路層，咱們的神經網絡能夠簡單的學會解決問題，特別是對於那些直接設計傳統電路很難解決的難題。

S型神經元（Sigmoid neurons ）

學習算法聽起來很了不得。可是咱們怎樣給神經網絡設計出這樣算法呢？假如咱們有一個想用來學習解決問題的感知器神經網絡。例如，網絡的輸入多是來自掃描機或者手寫數字的圖片像素數據。咱們想讓網絡學習權重和偏移量，網絡的輸出能夠正確的分類這些數字。爲了能看見學習是怎樣開展的，咱們假設在權重（或者偏移量）上面做一個小的改動，這個小的改動會相應的引發輸出的一個變化。咱們一會以後就能夠看到，這個特性會讓學習成爲可能。下圖就是咱們想要的 (明顯這個網絡對於手寫識別過於簡單):

若是這是真的，一個權重或者偏移量的值得一個小的變化只會引發輸出的一個小的變化，那麼咱們能夠用這個機制類改變權重和偏移量讓升級網絡以咱們想的方式來表現。例如，假如網絡錯誤地將數字9識別爲8。咱們能夠計算出怎樣改變權重和偏移量，讓網絡的識別結果偏向的正確的9。而後咱們會重複這樣調整，改變權重和偏移量，讓輸出原來越正確。這樣的話，網絡就有學習的能力了。

問題是感知器不能實現這種微調的的效果。事實上，權重或者偏移量的一個微小的變化有時候會致使輸出結果意想不到的改變，該輸出0的輸出了1，改輸出1的輸出了0。當你調整網絡的權重或者偏移量使數字圖片

咱們能夠經過引入一種叫作S型神經元的新的人工神經元來解決這個問題。S型神經元相似於感知器，可是通過了改造，從而可以使得權重和偏移量的小的變化會對輸出產生小的影響。這個關鍵的特性使得是S型神經元具備學習能力。

好，讓我媽描述一下S型神經元。咱們會已面試感知器的形式類描述S型神經元：