對於一個新手來講,深度學習術語可能很是難以理解。本表試圖解釋深度學習經常使用術語並連接到原始參考,以幫助讀者深刻了解特定主題。html
深度學習與「通常」的機器學習術語之間的界限很是模糊。例如,我這裏不包括「交叉驗證」,由於它是一種通用技術,用於整個機器學習。可是,我加入了softmax或word2vec等術語,由於它們一般與深度學習相關,即便它們不是深度學習技術。python
爲了讓神經網絡學習複雜的決策邊界,咱們將非線性激活函數應用於其某些層。經常使用的函數包括sigmoid、tanh、ReLU(整流線性單元)及它們的變體。git
Adadeltagithub
Adadelta是一種基於梯度降低的學習算法,能夠隨時間調整每一個參數的學習速率。它被認爲是對Adagrad的改進,由於Adagrad對超參數很敏感,而且可能過於快速的下降學習速度。Adadelta相似於rmsprop,能夠用來代替樸素SGD。算法
相關資源:網絡
二、斯坦福CS231n:優化算法框架
三、梯度降低優化算法概述機器學習
Adagrad函數
Adagrad是一種自適應學習速率算法,它能夠跟隨時間變化,並自動調整每一個參數的學習速率。它能夠代替vanilla SGD使用,而且對稀疏數據特別有用,它能夠爲不常常更新的參數分配更高的學習率。
相關資源:
Adam
Adam是一種相似於rmsprop的自適應學習速率算法,可是使用梯度的第一和第二時刻的運行平均值直接估計更新,而且還包括誤差校訂項。
一種神經網絡中的徹底鏈接層。仿射意味着前一層中的每一個神經元都鏈接到當前層中的每一個神經元。在許多狀況下,這是神經網絡的「標準」層。在進行最終預測以前,一般會在卷積神經網絡或遞歸神經網絡的輸出之上添加仿射層。仿射層一般形式的y=f(Wx+b),其中x是該層的輸入,W參數,b偏置向量,f是非線性激活函數。
注意力機制受到人類視覺注意力機制的啓發,即關注圖像特定部分的能力。注意力機制能夠應用在語言處理和圖像識別架構中,以幫助網絡瞭解在進行預測時「關注」的內容。
Alexnet
Alexnet是一種卷積神經網絡架構的名稱,它以絕對的優點贏得了ILSVRC 2012競賽。它由五個卷積層組成,其中一些後面是最大池層,三個是徹底鏈接的層,最後是1000-way softmax。Alexnet在深度卷積神經網絡的ImageNet分類中被引入。
自動編碼器是一種神經網絡模型,其目標是預測輸入自己,一般是經過網絡中某處的「瓶頸」。經過引入瓶頸,咱們能夠強制網絡輸入的低維表示,這樣能有效地將輸入壓縮爲更好的表示。自動編碼器與PCA和其餘降維技術差很少,但因爲其非線性的特性,它能夠學習更復雜的映射。並且存在不少種自動編碼器架構,包括去噪自動編碼器、變分自動編碼器或序列自動編碼器。
平均池(Average-Pooling)
Average-Pooling是用於圖像識別的卷積神經網絡的聚集技術。它的工做原理是在一系列特徵(例如像素)上滑動窗口,並獲取窗口內全部值的平均值。它能夠將輸入壓縮爲較低維表示。
反向傳播
反向傳播是一種有效計算神經網絡中梯度的算法,更通常地說,是一種前饋計算圖。能夠把它歸結爲從網絡輸出開始應用差別化的鏈規則並向後傳播梯度,反向傳播的第一次使用能夠追溯到1960年代的Vapnik。
反向傳播時間(BPTT)
Backpropagation Through Time(paper)是應用於遞歸神經網絡(RNN)的反向傳播算法。BPTT可被視爲應用於RNN的標準反向傳播算法,其中每一個時間步長表明一個層,而且參數在各層之間共享。因爲RNN在全部時間步驟中共享相同的參數,所以必須將「一段時間」的錯誤「經過時間」反向傳播到全部先前的時間步驟,所以名稱。當處理長序列時,常用Truncated-BPTT來下降計算成本。Truncated-BPTT在固定步數後中止反向傳播錯誤。
批量標準化(Batch Normalization)
批量標準化是一種對每一個小批量的層輸入進行標準化的技術。它加快了訓練的速度,容許使用更高的學習率。目前已經發現批量標準化對卷積和前饋神經網絡很是有效,但還沒有成功應用於遞歸神經網絡。
雙向RNN
雙向RNN是一種神經網絡,包含兩個進入不一樣方向的RNN。前向RNN從開始到結束讀取輸入序列,然後向RNN從結束到開始讀取輸入序列。兩個RNN堆疊在彼此之上,而且一般經過附加兩個向量來組合它們的狀態。雙向RNN一般用於天然語言問題,由於但願在進行預測以前考慮單詞以前和以後的上下文。
一、雙向遞歸神經網絡
Caffe
Caffe是伯克利視覺和學習中心開發的深度學習框架,Caffe在視覺任務和CNN模型中特別受歡迎。
分類交叉熵損失(Categorical Cross-Entropy Loss)
分類交叉熵損失也稱爲負對數似然,它是分類問題中流行損失函數,它能夠測量兩個機率分佈之間的類似性,一般是真實標籤和預測標籤。它由真實標籤的機率分佈L =-sum(y * log(y_prediction))在何處給出,y_prediction是預測標籤的機率分佈,一般來自softmax。
通道(Channel)
向Deep Learning模型輸入數據能夠有多個通道。通常的圖像是具備紅色、綠色和藍色通道。圖像能夠表示爲三維張量,其尺寸對應於通道、高度和寬度。天然語言數據也能夠具備多個通道,例如以不一樣類型的嵌入的形式。
卷積神經網絡(CNN,ConvNet)
CNN使用卷積來鏈接輸入的局部區域的提取特徵。大多數CNN都包含卷積,聚集和仿射層。CNN已經愈來愈受歡迎,特別是他們在視覺識別任務方面的出色表現。
深度信念網絡(DBN)
DBN是一種機率圖形模型,其以無監督的方式學習數據的分層表示。DBN由多個隱藏層組成,每一個連續的層中的神經元之間具備鏈接。DBN是經過將多個RBN堆疊在一塊兒並逐個訓練來構建的。
DeepDream
Google發明的一種技術,旨在提煉深層卷積神經網絡捕獲的知識。該技術能夠生成新圖像或者轉換現有圖像並賦予它們夢幻般的風格。
Dropout
Dropout是神經網絡的正則化技術,可防止過分擬合。它經過在每次訓練迭代中將它們的一部分隨機設置爲0來防止神經元過分適應。能夠以各類方式解釋丟失,例如從指數數量的不一樣網絡中隨機採樣。Dropout層首先經過在CNN中的使用而得到普及,但此後已應用於其餘層。
嵌入(Embedding)
嵌入是將輸入(例如單詞或句子)映射到向量中。有一種流行的嵌入類型是word嵌入,例如word2vec或GloVe。它們能夠嵌入句子,段落或圖像。例如,經過將圖像及其文本描述映射到公共嵌入空間並最小化它們之間的距離,咱們能夠將標籤與圖像匹配。嵌入能夠明確地學習,例如在word2vec中,也做爲監督任務的一部分,例如情感分析。一般,網絡的輸入層用預先訓練的嵌入進行初始化,而後將其微調到手頭的任務。
梯度爆炸問題
梯度爆炸問題正好與消失梯度問題相反。在深度神經網絡中,梯度可能在反向傳播期間爆炸,致使數量溢出。處理梯度爆炸的經常使用技術是執行梯度裁剪。
微調是指使用來自其餘任務(例如無人監督的訓練任務)的參數初始化網絡,而後根據手頭的任務更新這些參數的技術。例如,NLP架構一般使用像word2vec這樣的預訓練詞嵌入模型,而後在訓練期間根據諸如情感分析之類的特定任務更新這些詞嵌入模型。
梯度裁剪是一種防止在很是深的網絡中爆炸梯度的技術。執行梯度裁剪有不少方式,但常見的是當參數矢量的L2範數超過某個閾值時歸一化參數矢量的梯度new_gradients=gradients * threshold/l2_norm(gradients)。
GloVe是一種用於得到單詞的矢量表示(嵌入)的無監督學習算法。GloVe向量與word2vec具備相同的目的,但因爲受到共現統計的訓練,所以具備不一樣的向量表示。
GoogleLeNet
它是贏得ILSVRC 2014挑戰的卷積神經網絡架構。網絡使用Inception模塊來減小參數並提升網絡內計算資源的利用率。
GRU
門控循環單元是LSTM單元的簡化版本,參數較少。就像LSTM單元同樣,它使用門控機制防止RNN經過出現梯度消失的問題。GRU由一個復位門和更新門組成,用於肯定舊存儲器的哪一部分與當前時間步的新值保持一致。
二、循環神經網絡教程-使用Python和Theano實現GRU/LSTM RNN
初始模塊用於卷積神經網絡,經過堆疊1×1卷積下降維數,實現更高效的計算和更深刻的網絡。
Keras
Kears是一個基於Python的深度學習庫,包含許多用於深度神經網絡的高級構建塊。它能夠在TensorFlow、Theano或CNTK之上運行。
LSTM
長短時間記憶網絡是爲了經過使用記憶門控機制來防止遞歸神經網絡中的消失梯度問題。使用LSTM單元計算RNN中的隱藏狀態,幫助網絡有效地傳播梯度並學習遠程依賴性。
一、長短時間記憶
二、瞭解LSTM網絡;
三、循環神經網絡教程-使用Python和Theano實現GRU/LSTM RNN;
Max-pooling
池操做一般在卷積神經網絡中使用。最大池層會選擇特徵塊中的最大值,就像卷積層同樣,池化層經過窗口大小和步幅大小進行參數化。例如,咱們可使用步幅大小2在10×10特徵矩陣上滑動尺寸爲2×2的窗口,在每一個窗口內的全部4個值中選擇最大值,從而產生新的5×5特徵矩陣。合併圖層有助於經過僅保留最顯着的信息來減小表徵的維度,而且在圖像輸入的狀況下,它們提供轉換的基本不變性(即便圖像移動了幾個像素,也將選擇相同的最大值)。一般在連續的卷積層之間會插入池化層。
MNIST
該MNIST數據集是最經常使用的圖像識別數據集。它包括60,000個訓練和10,000個手寫數字測試示例。每一個圖像大28×28像素,現有技術模型一般在測試裝置上達到99.5%或更高的精度。
未完待續····
本文做者:【方向】
本文爲雲棲社區原創內容,未經容許不得轉載。