Language Modeling with Gated Convolutional Networks

時間 2019-12-07

標籤 language modeling gated convolutional networks 简体版

原文原文鏈接

語言模型

所謂的語言模型，便是指在得知前面的若干個單詞的時候，下一個位置上出現的某個單詞的機率。算法

最樸素的方法是N-gram語言模型，即當前位置只和前面N個位置的單詞相關。如此，問題即是，N小了，語言模型的表達能力不夠。N大了，遇到稀疏性問題，沒法有效的表徵上下文。性能

LSTM模型通常會將單詞embedding到連續空間，而後輸入進LSTM，從而有效的表徵上下文。但LSTM的問題在於，做爲遞歸模型，當前狀態依賴於上一狀態，並行化受到限制。測試

門限卷積

所謂的門限卷積，其核心在於爲卷積的激活值添加一個門限開關，來決定其有多大的機率傳到下一層去。下面一步步對上圖進行解析。優化

首先，將單詞embedding到連續空間；即上圖中的第二部分Lookup Table。這樣，單詞序列就能表現爲矩陣了。3d

而後就是卷積單元了（上圖中的第三部分），與普通卷積不一樣，門限卷積在這裏分爲兩部分，一部分是卷積激活值，即B，該處於普通卷積的不一樣在於沒有用Tanh，而是直接線性。另外一部分是門限值，即A，A也是直接線性獲得，但會通過一個sigmoid運算符。orm

以後就是門限單元，A和B進行element-wise的相乘，獲得卷積後的結果。卷積單元和門限單元加起來造成一個卷積層。blog

通過多個這樣的卷積層以後，再將其輸入到SoftMax中，獲得最後的預測。遞歸

細節

在作卷積層的時候，須要不讓第i個輸出值看到i之後的輸入值。這是由語言模型的特性決定的，須要用i以前的信息來預測i。爲了達到這樣的效果，須要將輸入層進行偏移，偏移k/2個單位，其中k是卷積的寬度，偏移後開頭空缺的部分就用0進行padding。ip

因爲residual network的強大能力，在真正的實現裏，會把卷積單元和門限單元包在一個residual block裏。element

在最後的softmax層，普通的softmax會由於詞表巨大而很是低效。於是選用adaptive softmax。adaptive softmax能夠爲高頻詞分配更多的空間而給低頻次分配比較少的空間。

門限機制

LSTM中有input門和forget門兩種，這兩種缺一則會致使有些信息的缺失。而卷積中，通過實驗，不須要forget gate。

而LSTM中使用的input門，如上。這種在卷積上卻容易致使vanishing問題。由於tanh‘和σ’都是小於1的值。

於是，在卷積上，使用：

該方法存在一路使得X的導數能夠不被downscale的傳下去。

實驗

Setup

使用Google Billion Word和WikiText-103兩種數據集。
使用perplexity來進行衡量結果。
使用Nesterov’s momentum算法來訓練，momentum設爲0.99。
weight normalization.
gradient clipping to 0.1
使用Kaiming initialization
learning rate 從[1., 2.]中uniformly選取

效果測試

單GPU上效果最好。

性能測試

Throughput是指在並行化條件下最大輸出。
Responsiveness是指序列化的處理輸入。
由表可知，CNN自己的處理速度很是快。而LSTM在並行化後也能擁有很高的速度。究其緣由，是在cuDNN中對LSTM有特別的優化，而對1-D convolution卻沒有。但即使如此，CNN仍然完勝。