Transformer作爲特徵提取器

Transformer之前 上圖是經典的雙向RNN模型,我們知道該模型是通過遞歸的方式運行,雖然適合對序列數據建模,但是缺點也很明顯「它無法並行執行」也就無法利用GPU強大的並行能力,再加上各種門控機制,運行速度很慢。一般而言,編碼器輸出編碼向量C作爲解碼器輸入,但是由於編碼向量C中所有的編碼器輸入值貢獻相同,導致序列數據越長信息丟失越多。 CNN網絡相比RNN網絡,它雖然可以並行執行,但是無法一
相關文章
相關標籤/搜索