關於神經網絡的基礎理解在知乎下面兩個回答已經說的很好了
如何簡單形象又有趣地講解神經網絡是什麼? --王小龍
如何簡單形象又有趣地講解神經網絡是什麼? --YJango算法
這裏就只把谷歌教程上面的知識補充一下吧,也差很少是最後一趴了。網絡
要對非線性問題進行建模,咱們能夠直接引入非線性函數。咱們能夠用非線性函數將每一個隱藏層節點像管道同樣鏈接起來。在下圖所示的模型中,在隱藏層 1 中的各個節點的值傳遞到下一層進行加權求和以前,咱們採用一個非線性函數對其進行了轉換。這種非線性函數稱爲激活函數。函數
常見激活函數:學習
相較於 S 型函數等平滑函數,如下修正線性單元激活函數(簡稱爲 ReLU)的效果一般要好一點,同時還很是易於計算。ReLU: F(x)=max(0,x)優化
ReLU 的優點在於它基於實證發現(可能由 ReLU 驅動),擁有更實用的響應範圍。S 型函數的響應性在兩端相對較快地減小。google
實際上,全部數學函數都可做爲激活函數。假設 表示咱們的激活函數(ReLU、S 型函數等等)。所以,網絡中節點的值由如下公式指定:spa
反向傳播演示
反向傳播算法是最多見的一種神經網絡訓練算法。藉助這種算法,梯度降低法在多層神經網絡中將成爲可行方法。首先,反向傳播確實依賴於梯度這一律念, 事物必須是可微的,這樣咱們纔可以進行學習。.net
反向傳播算法的一些要點:3d
前面您已經瞭解了二元分類模型,該模型可從兩個可能的選項中選擇其一,例如:blog
在本單元中,咱們將研究多類別分類,這種模型可從多種可能的狀況中進行選擇。例如
當類別總數較少時,這種方法比較合理,但隨着類別數量的增長,其效率會變得愈來愈低下。
咱們已經知道,邏輯迴歸可生成介於 0 和 1.0 之間的小數。例如,某電子郵件分類器的邏輯迴歸輸出值爲 0.8,代表電子郵件是垃圾郵件的機率爲 80%,不是垃圾郵件的機率爲 20%。很明顯,一封電子郵件是垃圾郵件或非垃圾郵件的機率之和爲 1.0
Softmax本質上就是對咱們所使用的這種邏輯迴歸的泛化, 只不過泛化成了多個類別。在遇到單一標籤的多類別分類問題時,咱們使用會Softmax。也就是說,在多類別問題中,Softmax 會爲每一個類別分配一個用小數表示的機率。這些用小數表示的機率相加之和必須是 1.0。與其餘方式相比,這種附加限制有助於讓訓練過程更快速地收斂。
例如,Softmax 可能會得出圖片屬於某一特定類別的如下機率:
Softmax 層是緊挨着輸出層以前的神經網絡層。Softmax 層必須和輸出層擁有同樣的節點數。
關於Softmax:
詳解softmax函數以及相關求導過程 - 憶臻的文章 - 知乎
https://zhuanlan.zhihu.com/p/...
Softmax 函數的特色和做用是什麼? - 楊思達zzzz的回答 - 知乎
https://www.zhihu.com/questio...
在訓練多類別分類時,咱們有幾個選項能夠選擇。
類別數量較少時,完整 Softmax 代價很小,但隨着類別數量的增長,它的代價會變得極其高昂。候選採樣能夠提升處理具備大量類別的問題的效率。
候選採樣:
一種訓練時進行的優化,會使用某種函數(例如 softmax)針對全部正類別標籤計算機率,但對於負類別標籤,則僅針對其隨機樣本計算機率。例如,若是某個樣本的標籤爲「小獵犬」和「狗」,則候選採樣將針對「小獵犬」和「狗」類別輸出計算預測機率和相應的損失項,但沒必要針對每一個非狗狗樣本提供機率。這種採樣基於的想法是,只要正類別始終獲得適當的正加強,負類別就能夠從頻率較低的負加強中進行學習,這確實是在實際中觀察到的狀況。候選採樣的目的是,經過不針對全部負類別計算預測結果來提升計算效率。
Softmax 假設每一個樣本只是一個類別的成員。可是,一些樣本能夠同時是多個類別的成員。對於此類示例:
例如,假設您的樣本是隻包含一項內容(一塊水果)的圖片。Softmax 能夠肯定該內容是梨、橙子、蘋果等的機率。若是您的樣本是包含各類各樣內容(幾種不一樣種類的水果)的圖片,您必須改用多個邏輯迴歸。