transformer---李宏毅

什麼是transformer?對於seq2seq模型,我們常用的是RNN,但我們所使用的RNN是按照時間步去計算的,缺少並行性,當我們的訓練集很龐大時,我們的訓練時間要很久,而李宏毅老師在視頻裏講到,有人提出用CNN去替代RNN,如下圖,左圖爲雙向RNN,而右圖爲CNN去訓練序列 我們看到右圖中使用CNN對序列進行特徵的提取,圖中每一個三角形代表一個filter,我們第一層提取相鄰的序列單詞的特徵
相關文章
相關標籤/搜索