元學習gradient descent as LSTM(2)--李宏毅老師課程學習筆記

我們發現meta learning中的結構與RNN比較相似,具體看下面兩篇論文是講這個的。 RNN是用同一個單元去處理很長的句子,因爲每次只吃一個單詞。 現在基本用LSTM,通過結構發現Ct的特殊,同時由於它改變較慢,因此LSTM能夠儲存較長之間之前的詞。 複習一下LSTM: 這個圖和上面的圖進行對比,是LSTM的簡化版。 如果把sita t-1 的loss用來更新zi,那麼可以多樣地調整學習率。
相關文章
相關標籤/搜索