這篇博客不是一篇講解原理的博客,這篇博客主要講解tnesorlfow的RNN代碼結構,經過代碼來學習RNN,以及講解time_steps,若是這篇博客沒有讓你明白time_steps,歡迎博客下面評論交流。html
我曾翻閱各大網站,各大博客,他們的對RNN中time_steps的講解,都沒有一個讓人醍醐灌頂的答案,甚至讓人越看模糊。有的博主在博客中講的看似他懂了,一問他本身他答不上來。在這裏,我向全中國還迷糊在time_step的學者答疑,立此博文。git
學習RNNCell要重點關注三個地方:github
想要看懂tensorflow RNN代碼,咱們必需要先了解RNNCell,RNNcell 是 tensorlfow中實現RNN的基本單元。咱們平時在代碼中用的是RNNcell的子類,BasicRNNCell(RNN的基礎類)和BasicLSTMCell(LSTM的基礎類)。爲了方便,我用cell對這兩個類進行統稱。網絡
使用方式是:(output, next_state) = call(input, state)函數
理解例子:輸入序列是:$x_一、x_二、x_3$,RNN的初始狀態爲$h_0$學習
t=1時刻,$(output_1, h_1) = cell(x_1,h_0)$網站
t=2時刻,$(output_2, h_2) = cell(x_2,h_1)$spa
t=3時刻,$(output_3, h_3) = cell(x_3,h_2)$code
每調用一次RNNCell的call方法,就至關於在時間上推動了一步。htm
RNNCell中還有兩個輸出比較重要,state_size(隱層的大小),output_size(輸出的大小)。output_size通常等於最後一層RNN的state_size。
設輸入數據的形狀爲(batch_size, input_size),那麼計算時獲得的隱層狀態就是(batch_size, state_size),輸出就是(batch_size, output_size)。
注意:隱藏層的初始化cell.zero_state,shape=batch_size
import tensorflow as tf cell = tf.nn.rnn_cell.BasicRNNCell(num_units=128) # state_size = 128 # cell = tf.keras.layers.SimpleRNNCell(units=128) print(cell.state_size) # 128 # 32 是 batch_size inputs = tf.placeholder(tf.float32, shape=(32, 100)) # 經過zero_state獲得一個全0的初始狀態,形狀爲(batch_size, state_size) h0 = cell.zero_state(32, tf.float32) # (32, 128) # 調用call函數 output, h1 = cell.__call__(inputs, h0) print(h1.shape) # (32, 128)
對於BasicLSTMCell,由於LSTM能夠看作有兩個隱狀態h和c,對應的隱層就是一個Tuple,每一個都是(batch_size, state_size)的形狀:
import tensorflow as tf lstm_cell = tf.nn.rnn_cell.BasicLSTMCell(num_units=128) inputs = tf.placeholder(tf.float32, shape=(32, 100)) # 32 是 batch_size h0 = lstm_cell.zero_state(32, tf.float32) # (32,128) output, h1 = lstm_cell.__call__(inputs, h0) print(h1.h.shape) # shape=(32, 128) print(h1.c.shape) # shape=(32, 128)
tf.nn.static_rnn——隨時間靜態展開。static_rnn() 返回兩個對象,第一個是每一時刻time_steps RNN輸出的列表,另外一個是RNN網絡的最終狀態state。下面代碼舉例time_steps=2的輸入。
X0 = tf.placeholder(tf.float32, [None, n_inputs]) X1 = tf.placeholder(tf.float32, [None, n_inputs]) basic_cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) output_seqs, states = tf.contrib.rnn.static_rnn(basic_cell, [X0, X1], dtype=tf.float32) Y0, Y1 = output_seqs
若是有50個tiime_steps時刻,操做50個輸入佔位符實在太繁瑣了,假如輸入shape=(None, time_steps, imput_size),能夠用以下方法一併輸入
X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) X = tf.transpose(X, perm=[1, 0, 2]) # shape=(n_steps, batchs ,n_inputs) X_seqs = tf.unstack(X) # time_steps個(batchs, n_inputs)的列表 basic_cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) output_seqs, states = tf.contrib.rnn.static_rnn(basic_cell, X_seqs, dtype=tf.float32) outputs = tf.transpose(tf.stack(output_seqs), perm=[1, 0, 2])
最終的outputs是一個包含全部實例、任一時刻、全部神經元的輸出的張量。幸運的是,還有更好的解決方案,那就是dynamic_rnn()函數。
tf.nn.dynamic_rnn——隨時間動態展開。基礎的RNNCell有一個很明顯的問題:對於單個的RNNCell,咱們使用它的call函數進行運算時,只是在序列時間上前進了一步。若是咱們的序列長度爲10,就要調用10次call函數,比較麻煩。對此,TensorFlow提供了一個tf.nn.dynamic_rnn函數,該函數就至關於調用了n(輸入數據的格式爲(batch_size, time_steps, input_size),其中time_steps表示序列自己的長度,如在Char RNN中,長度爲10的句子對應的time_steps就等於10。最後的input_size就表示輸入數據單個序列單個時間維度上固有的長度。另外咱們已經定義好了一個RNNCell,調用該RNNCell的call函數time_steps次,對應的代碼就是:)次call函數。即經過${h_0,x_1, x_2, …., x_n}$直接得${h_1,h_2…,h_n}$。
舉個例子:假設輸入數據的格式爲(batch_size, time_steps, input_size),其中time_steps表示序列自己的長度,如在NLP中,一句話有25個字,每一個字的向量維度爲300,那麼time_steps就是句子的長度=25,input_size=300。另外咱們已經定義好了一個RNNCell,調用該RNNCell的call函數time_steps次,對應的代碼就是:
outputs, state = tf.nn.dynamic_rnn(cell, inputs, initial_state=initial_state)
參數:
inputs: 輸入序列 shape = (batch_size, time_steps, input_size)
cell: RNNCell
initial_state: 初始狀態。通常能夠取零矩陣shape = (batch_size, cell.state_size)。
返回:
X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) # (batch_size, time_steps,input_size) basic_cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) outputs, states = tf.nn.dynamic_rnn(basic_cell, X, dtype=tf.float32)
前面咱們處理的輸入shape=(batch_size, time_step, input_size),輸入序列是定長的,拿咱們作天然同樣處理爲例子,若是數據有1000段時序的句子,每句話有25個字,對每一個字進行向量化,每一個字的向量維度爲300,那麼batch_size=1000,time_steps=25,input_size=300。可是每句話的句子長度都是不同的,這時候咱們就須要在調用dynamic_rnn()(或者static_rnn)時使用sequence_length參數。指明瞭每一實例輸入序列的長度。例如:
X = tf.placeholder(tf.float32, [None, n_steps, n_inputs]) # (batch_size, time_steps,input_size) seq_length = tf.placeholder(tf.int32, [None]) basic_cell = tf.contrib.rnn.BasicRNNCell(num_units=n_neurons) outputs, states = tf.nn.dynamic_rnn(basic_cell, X, sequence_length=seq_length, dtype=tf.float32)
假設咱們輸入的第二個實例只有一個時刻的輸入,表示該實例張量的第二維須要補零,以下所示:
X_batch = np.array([ # step 0 step 1 [[0, 1, 2], [9, 8, 7]], # instance 0 [[3, 4, 5], [0, 0, 0]], # instance 1 (padded with a zero vector) [[6, 7, 8], [6, 5, 4]], # instance 2 [[9, 0, 1], [3, 2, 1]], # instance 3 ]) seq_length_batch = np.array([2, 1, 2, 2]) with tf.Session() as sess: init.run() outputs_val, states_val = sess.run([outputs, states], feed_dict={X: X_batch, seq_length: seq_length_batch})
單層RNN能力有限,咱們須要多層的RNN。將x輸入第一層RNN的後獲得隱層狀態h,這個隱層狀態就至關於第二層RNN的輸入,第二層RNN的隱層狀態又至關於第三層RNN的輸入,以此類推。在TensorFlow中,能夠使用tf.nn.rnn_cell.MultiRNNCell函數對RNNCell進行堆疊
import tensorflow as tf # 每調用一次這個函數就返回一個BasicRNNCell def get_a_cell(): return tf.nn.rnn_cell.BasicRNNCell(num_units=128) # 用tf.nn.rnn_cell MultiRNNCell建立3層RNN cell = tf.nn.rnn_cell.MultiRNNCell([get_a_cell() for _ in range(3)]) # 3層RNN # 獲得的cell實際也是RNNCell的子類 # 它的state_size是(128, 128, 128) # (128, 128, 128)並非128x128x128的意思 # 而是表示共有3個隱層狀態,每一個隱層狀態的大小爲128 print(cell.state_size) # (128, 128, 128) # 使用對應的call函數 inputs = tf.placeholder(tf.float32, shape=(32, 100)) # 32 是 batch_size h0 = cell.zero_state(32, tf.float32) # 經過zero_state獲得一個全0的初始狀態 output, h1 = cell.__call__(inputs, h0) print(h1) # tuple中含有3個32x128的向量 # (<tf.Tensor 'multi_rnn_cell/cell_0/basic_rnn_cell/Tanh:0' shape=(32, 128) dtype=float32>, # <tf.Tensor 'multi_rnn_cell/cell_1/basic_rnn_cell/Tanh:0' shape=(32, 128) dtype=float32>, # <tf.Tensor 'multi_rnn_cell/cell_2/basic_rnn_cell/Tanh:0' shape=(32, 128) dtype=float32>)
RNN的其餘變種
### ------------ LSTM ------------- ### lstm_cell = tf.contrib.rnn.BasicLSTMCell(num_units=n_neurons) # peephole connections # 讓長期記憶也參與控制門的管理可能會更好 lstm_cell = tf.contrib.rnn.LSTMCell(num_units=n_neurons, use_peepholes=True) ### ------------ GRU ------------- ### gru_cell = tf.contrib.rnn.GRUCell(num_units=n_neurons)
有的人學習到RNN的時候,死活都弄不清batch、input_size、time_steps。在這篇博文中,我作一個專欄。
若是數據有1000段時序的句子,每句話有25個字,對每一個字進行向量化,每一個字的向量維度爲300,那麼batch_size=1000,time_steps=25,input_size=300。
解析:time_steps通常狀況下就是等於句子的長度,input_size等於字量化後向量的長度。
拿MNIST手寫數字集來講,訓練數據有6000個手寫數字圖像,每一個數字圖像大小爲28*28,batch_size=6000沒的說,time_steps=28,input_size=28,咱們能夠理解爲把圖片圖片分紅28份,每份shape=(1, 28)。
假如訓練數據有225段語音,每段語音對其進行分幀處理,每段語音有480幀,每一幀數據shape=(8910,),則輸入shape=(225, 480 8910),batch_size=225,time_steps就是,每段語音的幀數,time_steps=480,input_size=8910
咱們使用RNN永遠只須要記住,輸入數據必定要是時序的,不能用這一段語音的語音幀,接下一段語音的語音幀,由於這兩段語音之間沒有時域連續性。
RNN數據必定要是三維的,第一維是batch_size,第二維是time_steps,第三位是數據input_size。