LC-BLSTM結構快速解讀

時間 2019-11-20

標籤 blstm 結構快速解讀简体版

原文原文鏈接

參考文獻以下：

(1) A Context-Sensitive-Chunk BPTT Approach to Training Deep LSTM/BLSTM Recurrent Neural Networks for Offline Handwriting Recognition網絡

(2) Training Deep Bidirectional LSTM Acoustic Model for LVCSR by a Context-Sensitive-Chunk BPTT Approach測試

(3) Improving Latency-Controlled BLSTM Acoustic Models for Online Speech Recogintion3d

前言衆所周知，BLSTM是雙向的LSTM，它能夠同時兼容上下文的信息，從而在通常序列任務上的表現很好。可是BLSTM有一個很致命的弱點，那就是由於有逆向LSTM的存在，它須要有後文的後驗，使得它沒法在實時的序列任務上也有好的表現。基於實時任務的需求，出現了兩種BLSTM的變體——CSC-BLSTM和LC-BLSTMblog

1. CSC-BLSTM結構解析

CSC-BLSTM結構全名——Context-Sensitive-Chunk Bidirectional Long Short-Term Memory，是BLSTM的第一種改進版本。請看結構圖：ip

CSC-BLSTM首先把序列按照圖示的方法分割成多組chunk，除了首尾位置，其餘位置處的都是由N_l+N_c+N_r構成，分割的大小事先給定，通常選作30幀+60幀+30幀的模式。get

其核心思想在於，N_l用來初始化N_c的前向細胞層狀態，N_r用來初始化N_c的後向細胞層狀態。N_l和N_r不參與偏差反向傳播。以下圖：it

很顯然，CSC-BLSTM的這種結構改進能夠減少實時任務的延遲，用不着整段話都輸入完畢纔有結果。可是從總體上看，它是以犧牲計算量爲代價的。由於與BLSTM相比，它多出了N_l和N_r上的計算。在此基礎之上，爲了減小這種計算量，又出現了更加簡化了的LC-BLSTM。io

2. LC-BLSTM結構解析

LC-BLSTM結構全名——Latency-Controlled Bidirectional Long Short-Term Memory，它改進了CSC-BLSTM。請看結構圖：基礎

能夠發現，相比於CSC-BLSTM，LC-BLSTM取消了N_l，只保留了N_c+N_r。可是如此在計算上必然有差別。cli

原來，LC-BLSTM的計算也並不複雜，同CSC-BLSTM同樣，N_r用來初始化N_c的後向細胞層狀態。可是，N_c的前向細胞層狀態直接由它的前一個N_c的輸出狀態獲得。這樣，相比於CSC-BLSTM，LC-BLSTM避免了N_l的計算量。

But!!!很不幸，經過實驗發現，爲了保證準確率，LC-BLSTM必需要保證N_r劃分的足夠大，好比在原論文中，N_c=22的狀況下，N_r須要有21，這幾乎使得N_r須要有N_c一樣的大小。在N_c=N_r=30的狀況下，LC-BLSTM的計算量是傳統BLSTM的兩倍。