上一篇中,咱們討論了循環神經網絡相關的基本內容,今天咱們繼續探討一下循環神經網絡還有那些須要注意的更高級的用法。python
在以前的討論中,咱們常常聊起過擬合的問題,咱們通常判斷訓練的網絡什麼狀況下算做訓練完成,查看其精度和損失時,也都看的是其過擬合以前的數據,避免過擬合的一種方法是用 dropout 方法,隨機清零的方式去實現,可是在循環神經網絡中,這個問題就有點複雜了。網絡
人們在大量的實驗中早已經發現,在循環層前進行 dropout 對於下降過擬合沒什麼幫助,甚至可能會影響網絡的正常訓練,在循環層中如何 dropout 是在 2015 年的一篇論文中提出來的,具體的方式是:在每個時間步中,使用相同的 dropout 掩碼,而且將這個不隨時間步變化的 dropout 掩碼應用於層的內部循環激活,這樣就能夠將其學習的偏差傳遞下去,若是在 Keras 中使用 LSTM、GRU 等循環神經網絡均可以經過設置 dropout(輸入單元 dropout) 和 recurrent_out (循環單元 dropout)來下降過擬合,通常狀況下,最佳狀況不會有大的降低,但會穩定更多,是調優網絡的一個思路。用的方法是:函數
model.add(layers.GRU(32, dropout=0.2, recurrent_dropout=0.2, input_shape=(None, float_data.shape[-1])))
咱們訓練網絡通常的過程都是構建一個網絡,在未出現嚴重過擬合前咱們都會盡量大的增長網絡容量(讓特徵點更多),這有助於讓網絡模型更好的抓住數據的特徵,對於循環神經網絡,也是相似的思路,進行循環層的堆疊,且通常狀況下,都會讓數據變得更好,這是最經常使用其有效(使數據變好,具體提升程度視狀況而不一樣)的調優方法,Google 產品中有挺多相似的作法。用的方法是:學習
model.add(layers.GRU(32, dropout=0.1, recurrent_dropout=0.5, return_sequences=True, input_shape=(None, float_data.shape[-1]))) model.add(layers.GRU(64, activation='relu', dropout=0.1, recurrent_dropout=0.5))
針對這個問題,我一直以爲是一個玄學。雙向 RNN,顧名思義,就是這個循環網絡中包含兩個方向相反的普通 RN,一個正向處理數據,一個反向處理數據,由於咱們知道 RNN 是對順序敏感的前一項處理出的數據值,會做用到下一項數據上,所以數據的不一樣不一樣方向的處理會獲取到數據的不一樣特徵,或者說反向的 RN 會識別出被正向 RN 忽略的特徵,進而補充正向 RN 的不足,如此一來,可能使得整個 RNN 效果更好,略有玄學特徵可是也能夠理解吧,總之這也是一個有效的辦法。用的方法是:優化
model.add(layers.Bidirectional(layers.LSTM(32)))
對於神經網絡來講,具體哪種調優的方法真的有效效果更好,其實根據實際問題實際的數據有比較大的差異,不能一律而論,所以這也是一項須要經驗和耐心的工做,也許你還會發出這樣的疑問:「我去,爲何這樣不行?我去,爲何這樣還不行?我去,爲何這樣行了?」code
固然,還有一些其餘的方法對於更好的訓練網絡可能有用,好比調節激活函數、調節優化器學習率等,用點耐心會訓練出你滿意的網絡的。get
循環神經網絡就暫時先討論這些吧,還有不少細節可是很重要的問題尚未詳細介紹,往後有機會繼續討論。input
願世界和平!產品