BERT基礎（二）：Transformer 詳解

時間 2020-12-30

原文原文鏈接

Transformer 中 self - attention 的詳解參考： BERT基礎（一）：self_attention自注意力詳解在 Transformer 之前，多數基於神經網絡的機器翻譯方法依賴於循環神經網絡（RNN），後者利用循環（即每一步的輸出饋入下一步）進行順序操作（例如，逐詞地翻譯句子）。儘管 RNN 在建模序列方面非常強大，但其序列性意味着該網絡在訓練時非常緩慢，因爲長句需要

>>阅读原文<<