這些深度學習術語，你瞭解多少？（下）

時間 2019-11-16

標籤這些深度學習術語瞭解多少简体版

原文原文鏈接

摘要：入門深度學習，不知道這些術語怎麼和別人對話？

這些深度學習術語，你瞭解多少？（上） html

動量（Momentum）git

Momentum是Gradient Descent算法的擴展、可加速或抑制參數更新。github

一、經過反向傳播的錯誤來學習表徵web

多層感知器（MLP）算法

多層感知器是一種前饋神經網絡，具備多個徹底鏈接的層，使用非線性激活函數來處理不可線性分離的數據。MLP是多層神經網絡的最基本形式，若是它超過2層，則是深度神經網絡。網絡

神經機器翻譯（NMT）架構

NMT系統使用神經網絡在不一樣語言之間進行翻譯，例如英語和法語。NMT系統可使用雙語語料庫進行端到端的訓練，這與須要手工製做的特徵的傳統機器翻譯系統不一樣。NMT系統一般使用編碼器和解碼器遞在歸神經網絡來實現，該編碼器和解碼器分別是編碼源句子和產生目標句子。分佈式

一、用神經網絡進行序列學習的序列函數

二、使用RNN編碼器-解碼器學習短語表示工具

神經網絡圖靈機（NTM）

NMT是神經網絡架構，能夠從示例中推斷出簡單的算法。例如，NTM能夠經過示例輸入和輸出來學習排序算法。NTM一般學習某種形式的記憶和注意力機制來在程序執行期間處理狀態。

一、神經網絡圖靈機

噪聲對比估計（NCE）

噪聲對比估計是一般用於訓練具備大輸出詞彙的分類器採樣損耗。在大量可能的類別上計算softmax很是昂貴，但使用NCE，咱們能夠經過訓練分類器將問題從「實際」分佈和人爲生成的噪聲分佈區分開來，將問題簡化爲二元分類問題。

一、噪聲對比估計：非標準化統計模型的一種新的估計原理

二、經過噪聲對比估計有效地學習詞嵌入

受限玻爾茲曼機（RBN）

RBM是一種機率圖形模型，也能夠解釋爲隨機人工神經網絡，RBN以無監督的方式學習數據的表徵。RBN由可見層和隱藏層以及這些層中的二進制神經元之間的鏈接組成。RBN可使用對比發散（Contrastive Divergence）進行有效訓練，這是梯度降低的近似值。

一、動力系統中的信息處理：和諧理論的基礎

二、受限玻爾茲曼機器簡介

遞歸神經網絡（RNN）

RNN經過隱藏狀態順序交互，它最多須要N個輸入併產生多達N個輸出。例如，輸入能夠是句子，輸出是句子的情感分類（N-to-1）。輸入能夠是單個圖像，輸出能夠是與圖像的描述（1到N）對應的單詞序列。在每一個時間步，RNN基於當前輸入和先前隱藏狀態計算新的隱藏狀態（「存儲器」）。「遞歸性」就是源於這樣的事實：在每一個步驟中使用相同的參數而且網絡基於不一樣的輸入執行相同的計算操做。

結構遞歸神經網絡

結構遞歸神經網絡是遞歸神經網絡結合樹狀結構的推廣。它也在每次遞歸時應用相同的權重，但結構遞歸神經網絡可使用反向傳播進行端到端的訓練。雖然能夠將樹結構做爲優化問題的一部分來學習，但結構遞歸神經網絡一般應用於已經具備預約義結構的問題，如天然語言處理中的解析樹。

一、用結構遞歸神經網絡解析天然場景和天然語言處理

RELU

線性整流函數的簡稱。ReLU一般用做深度神經網絡中的激活函數，它們的定義是f(x)=max(0,x)。ReLU函數在性能上是優於tanh函數，而且它們對梯度消失問題的影響較小。ReLUs是卷積神經網絡中最經常使用的激活函數。ReLU存在若干變體，例如Leaky ReLU，Parametric ReLU（PReLU）或更平滑的softplus近似。

一、深刻研究整流函數：超越ImageNet分類的表現；

二、用非線性整流函數改善神經網絡聲學模型；

三、線性整流函數改進受限制的玻爾茲曼機器；

RESNET

Deep Residual Networks贏得了2015年ILSVRC的挑戰。它經過在層的堆棧之間引入快捷方式鏈接來工做，容許優化器學習「更容易」的殘差映射，而不是更復雜的原始映射。ResNet在ImageNet測試集上實現了3.57％的錯誤率。

一、深度殘留學習的圖像識別；

RMSProp

RMSProp是一種基於梯度的優化算法，它與Adagrad相似，但引入了額外的衰減方法來抵消Adagrad學習率的快速降低。

一、用於機器學習的神經網絡

二、斯坦福CS231n：優化算法

三、梯度降低優化算法概述

Seq2Seq

序列到序列模型將序列（例如句子）做爲輸入讀取併產生另外一序列做爲輸出。它與標準RNN的不一樣之處在於，在網絡開始產生任何輸出以前徹底讀取輸入序列。一般，seq2seq模型使用兩個RNN實現，用做編碼器和解碼器。神經機器翻譯是seq2seq模型的典型示例。

一、用神經網絡進行序列學習的序列

SGD

隨機梯度降低是一種基於梯度的優化算法，用於在訓練階段學習網絡參數，一般使用反向傳播算法計算梯度。在實踐中，人們使用SGD的小批量版本，其中參數更新是基於批次而不是單個示例來執行的，從而提升了計算效率。存在許多對vanilla SGD的擴展，包括Momentum、Adagrad、rmsprop、Adadelta或Adam。

一、在線學習隨機優化的自適應子梯度方法；

二、斯坦福CS231n：優化算法；

三、梯度降低優化算法概述；

SOFTMAX

SOFTMAX函數一般用於將原始分數的向量轉換成在一個神經網絡的機率類用於分類的輸出層。它經過取冪和除以標準化常數來對分數進行標準化。若是咱們正在處理大量的類，例如機器翻譯中的大量詞彙表，標準化這些常量的計算成本很高。這就須要各類替代方案以使計算更有效，包括Hierarchical Softmax或使用基於採樣的損失，例如NCE。

TensorFlow

TensorFlow是一個開源的C++/Python軟件庫，使用數據流圖進行數值計算。它是由Google建立，在設計方面，它與Theano最類似。

Theano

Theano是一個Python庫，容許你自定義、優化和評估數學表達式。它包含許多用於深度神經網絡的基礎塊。Theano是一個相似於Tensorflow的低級庫，高級庫包括Keras和Caffe。

梯度消失問題

消失梯度問題一般出如今很是深的神經網絡中，一般是遞歸神經網絡，由於它使用了使梯度趨於很小的激活函數（在0到1的範圍內）。而這些小梯度在反向傳播期間成倍增長，因此它們傾向於在整個層中「消失」，從而阻止網絡學習遠程依賴性。解決此問題的經常使用方法是使用不受小梯度影響的ReLU激活函數或使用明確消除梯度消失的LSTM等架構，與此問題相反的是梯度爆炸問題。

一、關於訓練遞歸神經網絡的難點；

VGG

VGG指的是一種卷積神經網絡模型，這個模型分別在2014年ImageNet圖像定位和分類中得到第一名和第二名。VGG模型由16-19個權重層組成，並使用尺寸爲3×3和1×1的小卷積濾波器。

一、用於大規模圖像識別的很是深的卷積網絡

word2vec

word2vec是一種算法和工具，經過嘗試預測文檔中單詞的上下文來學習詞嵌入。例如，生成的單詞向量具備一些有趣的屬性vector(‘queen') ~= vector('king')-vector('man')+vector('woman')。可使用兩個不一樣的目標來學習這些嵌入：Skip-Gram目標嘗試從單詞上預測上下文，而且CBOW目標嘗試從其上下文預測單詞。

一、向量空間中Word表示的有效估計；

二、詞語分佈式表達及其組合性；

三、word2vec參數學習解釋；

本文做者：【方向】

閱讀原文

本文爲雲棲社區原創內容，未經容許不得轉載。