Transformer

提出 CNNs 易於並行化,卻不適合捕捉變長序列內的依賴關係。 RNNs 適合捕捉長距離變長序列的依賴,但是卻難以實現並行化處理序列。 爲了整合CNN和RNN的優勢,[Vaswani et al., 2017] 創新性地使用注意力機制設計了Transformer模型。該模型利用attention機制實現了並行化捕捉序列依賴,並且同時處理序列的每個位置的tokens,上述優勢使得Transforme
相關文章
相關標籤/搜索