動手深度學習 筆記9

Transformer 模型利用attention機制實現了並行化捕捉序列依賴,並且同時處理序列的每個位置的tokens,上述優勢使得Transformer模型在性能優異的同時大大減少了訓練時間。 Transformer同樣基於編碼器-解碼器架構,與seq2seq的區別在於: Transformer blocks:將seq2seq模型重的循環網絡替換爲了Transformer Blocks,該模塊
相關文章
相關標籤/搜索