因果卷積(causal)與擴展卷積(dilated)之An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling
author:gswycf
最近在看關於NLP(天然語言處理)方面的文章,(其實不是本身要看),anyway,看了一個「An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling「,講到了:雖然人們如今都在用RNN和LSTm去處理序列問題(sequence modeling),可是明顯最近幾年這些模型在這些問題上出現了瓶頸,大家以前都說CNN不適合處理sequence modeling問題,但其實並非的,做者提出了一個普適的CNNN模型,在多個序列問題上和以前的RNN和LSTM比較,結果發現,CNN在這方面的能力確實是被低估了,CNN創建的model要比以前人們以前用的RNN要好不少,並且簡潔。lua
這篇blog並非要講那篇文章,我可能會單獨寫一篇(看有沒有時間),這篇blog主要是結束那篇文章中提出的兩個概念:因果卷積(causal)與擴展卷積(dilated)spa
因果卷積:blog
由於要處理序列問題(即要考慮時間問題,)就不能使用普通的CNN卷積,必須使用新的CNN模型,這個就是因果卷積的做用,看下面一個公式,對與序列問題(sequence modeling),主要抽象爲,根據x1......xt和y1.....yt-1去預測yt,使得yt接近於實際值圖片
咱們根據圖片來看下因果卷積的樣子,下面這個圖片來自:https://deepmind.com/blog/wavenet-generative-model-raw-audio/io
上面的圖片能夠詳細的解釋因果卷積,可是問題就來,若是我要考慮好久以前的變量x,那麼卷積層數就必須增長(自行體會)。。。卷積層數的增長就帶來:梯度消失,訓練複雜,擬合效果很差的問題,爲了決絕這個問題,出現了擴展卷積(dilated)class
因果卷積:變量
對於因果卷積,存在的一個問題是須要不少層或者很大的filter來增長卷積的感覺野。本文中,咱們經過大小排列來的擴大卷積來增長感覺野。擴大卷積(dilated convolution)是經過跳過部分輸入來使filter能夠應用於大於filter自己長度的區域。等同於經過增長零來從原始filter中生成更大的filter。擴展
這就能夠解決因果卷積帶來的問題,在示意圖中,卷積感覺野擴大了1,2,4,8倍。擴大卷積(dilated convolution)能夠使模型在層數不大的狀況下有很是大的感覺野。model