這一章的開頭以一個頗有趣的例子(XOR)解釋了線性模型(linear model)的侷限性。網絡
假設如今咱們要使用線性模型構造與或門(XOR),即對以下幾組輸入:
$$x_1 = [0, 0] \qquad x_2 = [0, 1] \qquad x_3=[1, 0] \qquad x_4=[1, 1] $$
咱們但願$y$值分別是:
$$[0, 1, 1, 0]$$函數
按照線性函數的平方損失/線性模型,最後參數$w$爲0,$b$爲0.5,即對任何輸入$x$,其預測結果均爲1/2。爲何會這樣?學習
線性模型的一大問題在於它是輸入特徵的線性加權,沒法學習「兩個特徵之間的交互做用」。咱們將輸入數據展現出來:spa
線性模型的困境:圖片
若是咱們能有一種非線性變換(爲什麼必須是非線性?由於線性矩陣的線性變換,結果仍然是線性的),使上圖的點變成這樣:
此時這些點又變得線性可分了。那麼如何尋找這樣一個變換函數,且最終學習參數將它們分開呢?it
這裏採用的非線性變換函數叫Rectified linear activation function,它有幾個好處:io
咱們構建一個神經網絡:function
並引入變換函數:
此時,構造的假設函數爲:
$$f(xx;W,c,w,b) = w^Tmax\{0, W^Tx+c\} +b$$class