吳恩達《深度學習》第一門課（4）深層神經網絡

4.1深層神經網絡

（1）究竟是深層仍是淺層是一個相對的概念，沒必要太糾結，如下是一個四層的深度神經網絡：緩存

（2）一些符號定義：網絡

a^[0]=x（輸入層也叫作第0層）函數

L=4：表示網絡的層數學習

g:表示激活函數spa

第l層輸出用a^[l]，最終的輸出用a^[L]表示3d

n^[1]=5:表示第一層有五個神經元，第l層神經元個數用n^[l]表示blog

4.2前向傳播和反向傳播

（1）前向傳播：輸入a^[l-1],輸出是a^[l],緩存爲z^[l]，步驟以下：（下面第一個式子應該是a^[l-1]）深度學習

向量化：io

（2）反向傳播:輸入da^[l],輸出da^[l-1],dw^[l],db^[l]class

（4）da^[l-1]=w^[l]T·dz^[l]

由第四個式子帶入到第一各式子中得

向量化：

（3）總結：第一層多是Relu激活函數，第二層爲另外一個Relu函數，第三層多是sigmoid函數（若是作二分類的話），輸出值爲a[L],用來計算損失，這樣就能夠以向後迭代進行反向傳播就到來求dw[3],db[3],dw[2],db[2],dw[1],db[1].在計算的時候，緩存會把z[1]z[2]z[3]傳遞過來，而後回傳da[2],da[1],能夠用來計算da[0],可是不會使用它。整個過程以下圖所示

4.3深層網絡的前向傳播

（1）前向傳播概括爲：

向量化實現過程：

4.4覈對矩陣的維數

（1）w的維度是（下一層的維數，上一層的維數），即w^[l]:(n^[l],n^[l-1])

（2）b的維度時（下一層的維數，1）

（3）z^[l],a^[l]:(n^[l],1)

（4）dw^[l]和w^[l]維度相同，db^[l]和b^[l]維度相同，且w,b向量化維度不變，但z,a以及x的維度會向量化後發生改變。

向量化後：

Z^[l]:(n^[l],m)，A^[l]同Z^[l]

4.5爲何使用深層表示

增長網絡的深度比廣度更有效。

4.6搭建神經網絡塊

（1）針對一層的正向和反向傳播：

（2）整個過程示意圖：

4.7參數VS超參數

（1）W，b是參數

（2）學習率、迭代次數、層數、每層的單元數、momentum、mini batch size、regularization perameters等能影響W、b的都稱爲超參數，超參數的選擇須要不斷嘗試和靠經驗，以及一些策略。

4.8深度學習和大腦的關聯性

深度學習和大腦其實沒什麼直接關係。