【NLP】談談Transformer

@toc[文章目錄] 一. 從RNN到Transformer 文字數據由於天然具有序列特性,與圖像數據是不同的,因此最初的特徵提取器(類似於圖像中的CNN)採用了RNN結構: 對RNN有一定了解的話,就會知道RNN的兩個明顯問題: 效率問題:需要逐個詞進行處理,後一個詞要等到前一個詞的隱狀態輸出以後才能開始處理,因此無法並行處理 如果傳遞距離過長還會有梯度消失、梯度爆炸和遺忘問題 爲了解決第二個問
相關文章
相關標籤/搜索