動手深度學習筆記9

時間 2021-01-16

標籤動手深度學習简体版

原文原文鏈接

Transformer 模型利用attention機制實現了並行化捕捉序列依賴，並且同時處理序列的每個位置的tokens，上述優勢使得Transformer模型在性能優異的同時大大減少了訓練時間。 Transformer同樣基於編碼器-解碼器架構，與seq2seq的區別在於： Transformer blocks：將seq2seq模型重的循環網絡替換爲了Transformer Blocks，該模塊

>>阅读原文<<