RNN激活函數、Encoder-Decoder、Seq2Seq、Attention

  RNN中爲何使用使用tanh激活,不用sigmoid、Relu   Sigmoid函數的導數範圍是(0,0.25], Tanh函數的導數是(0,1]。網絡 因爲RNN中會執行不少累乘,小於1的小數累乘會致使梯度愈來愈接近於0,出現梯度消失現象。函數 Tanh與Sigmoid相比,梯度更大,收斂速度更快而且出現梯度消失的狀況要優於Sigmoid。優化 另外一點是Sigmoid的輸出均大於0,不是
相關文章
相關標籤/搜索