Transformer筆記

Transformer 在主流的神經網絡架構如卷積神經網絡(CNNs)和循環神經網絡(RNNs)中: CNNs 易於並行化,卻不適合捕捉變長序列內的依賴關係。 RNNs 適合捕捉長距離變長序列的依賴,但是卻難以實現並行化處理序列。 爲了整合CNN和RNN的優勢,[Vaswani et al., 2017] 創新性地使用注意力機制設計了Transformer模型。該模型利用attention機制實現
相關文章
相關標籤/搜索