拆 Transformer 系列二：Multi- Head Attention 機制詳解

時間 2020-12-23

原文原文鏈接

在「拆 Transformer 系列一：Encoder-Decoder 模型架構詳解」中有簡單介紹 Attention，Self-Attention 以及 Multi-Head Attention，都只是在直觀上介紹 Attention 的作用，如何能夠像人的視覺注意力機制那樣，記住關鍵信息，並且也介紹了 Self-Attention 機制如何能通過對自身注意力加權來學習句子內部結構以及一些語法特

>>阅读原文<<