Transformer介紹

時間 2021-01-20

原文原文鏈接

Transformer 在之前的章節中，我們已經介紹了主流的神經網絡架構如卷積神經網絡（CNNs）和循環神經網絡（RNNs）。讓我們進行一些回顧： CNNs 易於並行化，卻不適合捕捉變長序列內的依賴關係。 RNNs 適合捕捉長距離變長序列的依賴，但是卻難以實現並行化處理序列。爲了整合CNN和RNN的優勢，[Vaswani et al., 2017] 創新性地使用注意力機制設計了Transform

>>阅读原文<<