Transformer介紹

Transformer 在之前的章節中,我們已經介紹了主流的神經網絡架構如卷積神經網絡(CNNs)和循環神經網絡(RNNs)。讓我們進行一些回顧: CNNs 易於並行化,卻不適合捕捉變長序列內的依賴關係。 RNNs 適合捕捉長距離變長序列的依賴,但是卻難以實現並行化處理序列。 爲了整合CNN和RNN的優勢,[Vaswani et al., 2017] 創新性地使用注意力機制設計了Transform
相關文章
相關標籤/搜索