神經網絡與機器學習第3版學習筆記-第1章 Rosenblatt感知器

神經網絡與機器學習第3版學習筆記 git

     -初學者的筆記,記錄花時間思考的各類疑惑網絡

    本文主要闡述該書在數學推導上一筆帶過的地方。參考學習,在流暢理解書本內容的同時,還能溫顧學過的數學知識,達到事半功倍的效果。less

第一章 Rosenblatt感知器

1、第32頁

1.1 爲何若是第n次迭代時的內積存在符號錯誤,第n+1次迭代內積的符號就會正確?機器學習

    已知 $\eta \left( n \right) X^T\left( n \right) X\left( n \right) >\left| W^T\left( n \right) X\left( n \right) \right|$ ······················································①學習

    (1)假設$X\left( n \right) \in \varphi \left( 1 \right) $,即正確的內積結果大於0:$W^{\begin{array}{c} T\\\end{array}}\left( n \right) X\left( n \right) >0$ 。spa

    $\because $第n次迭代時的內積存在符號錯誤get

    $\therefore W^{\begin{array}{c} T\\\end{array}}\left( n \right) X\left( n \right) <0$數學

    $\because X\left( n \right) \in \varphi \left( 1 \right) \,\,\land W^{\begin{array}{c} T\\\end{array}}\left( n \right) X\left( n \right) <0$it

    $\therefore W\left( n+1 \right) =W\left( n \right) +\eta \left( n \right) X\left( n \right) $ //加上一個正數,使下次內積增大(P30的式1.6)神經網絡

    $\therefore W^T\left( n+1 \right) =W^T\left( n \right) +\eta \left( n \right) X^T\left( n \right) $

    $\therefore W^T\left( n+1 \right) X\left( n \right) =W^T\left( n \right) X\left( n \right) +\eta \left( n \right) X^T\left( n \right) X\left( n \right) $

    又$\because ①\Rightarrow \eta \left( n \right) X^T\left( n \right) X\left( n \right) >-W^T\left( n \right) X\left( n \right) $

    $\therefore W^T\left( n+1 \right) X\left( n \right) >0$

    即:第n+1次迭代內積的符號正確。

    (2)同理可證當「$X\left( n \right) \in \varphi \left( 2 \right) \land W^{\begin{array}{c} T\\\end{array}}\left( n \right) X\left( n \right) >0$」時,第n+1次迭代內積的符號正確。

二、第33頁

2.1 關於「Cij

    Cij的通俗解釋:$x\in \varphi \left( i \right) $ 卻錯誤分類到$\varphi \left( j \right) $的風險。

三、第34頁

3.1 爲何C11<C21&C22<C12?

    由於錯誤分類的風險更大。

3.2 最優分類策略的由來。

    要使分類策略最優,即:實現風險最小。

    因此,最優分類爲,使得$\int_{\mathscr{X}1}{A\left( x \right) dx}$最小的A(A爲1.27中的代數式)。

    那麼,把全部使得$A\left( x \right) <0$的x都分配給$\mathscr{X}1$,可以使得上式最小。

四、第35頁

4.1 式1.33的簡化過程

     $-\frac{1}{2}\left( X-\mu _1 \right) ^TC^{-1}\left( X-\mu _1 \right) +\frac{1}{2}\left( X-\mu _2 \right) ^TC^{-1}\left( X-\mu _2 \right) $

    = $-\frac{1}{2}X^TC^{-1}X+\frac{1}{2}X^TC^{-1}\mu _1+\frac{1}{2}\mu _1^TC^{-1}X-\frac{1}{2}\mu _1^TC^{-1}\mu _1$

       $\,\,+\frac{1}{2}X^TC^{-1}X-\frac{1}{2}X^TC^{-1}\mu _2-\frac{1}{2}\mu _2^TC^{-1}X+\frac{1}{2}\mu _2^TC^{-1}\mu _2$

    = $\,\,\frac{1}{2}X^TC^{-1}\left( \mu _1-\mu _2 \right) +\frac{1}{2}\left( \mu _1^T-\mu _2^T \right) C^{-1}X$

       $+\frac{1}{2}\left( \,\,\mu _2^TC^{-1}\mu _2-\mu _1^TC^{-1}\mu _1 \right) $

    = $\,\,\frac{1}{2}X^TC^{-1}\left( \mu _1-\mu _2 \right) +\frac{1}{2}\left( \mu _1-\mu _2 \right) ^TC^{-1}X$

       $+\frac{1}{2}\left( \,\,\mu _2^TC^{-1}\mu _2-\mu _1^TC^{-1}\mu _1 \right) $

    $\because X,C,\mu _1,\mu _2$都是一維向量,且 一維向量X一維向量=常數

    $\therefore X^TC^{-1}\left( \mu _1-\mu _2 \right) =\left( \mu _1-\mu _2 \right) ^TC^{-1}X$

    $\therefore $原式=$\,\,\left( \mu _1-\mu _2 \right) ^TC^{-1}X+\frac{1}{2}\left( \,\,\mu _2^TC^{-1}\mu _2-\mu _1^TC^{-1}\mu _1 \right) $

五、第37頁

5.1 實驗所須要的感知器參數中:$\beta =50$ ?

    由於區域A的輸入向量的最大歐幾里得範數應該爲大圓半徑10,

    因此 $\beta =10^2=100$。

5.2 中文版中對於「權向量大小m=20」的描述,在原版中不存在,可忽略。

六、雙月模型的計算機實驗

   見如下開源代碼:

   (做者3步迭代就收斂,可個人代碼大約須要幾百步才能收斂,

因爲是隨機產生的輸入向量,收斂步數應該得看臉,好在都能瞬間完成

並生成可分析數據)

   https://gitee.com/none_of_useless/nnalm

   思路:

   ①建立感知器。接受輸入向量及初始權值,輸出收斂後的權值。

   ②建立雙月模型,生成訓練與驗證數據。

相關文章
相關標籤/搜索