transformer之前的attention

前言  寫着寫着Transformer又新開一篇介紹Attention機制,因爲一個模型往往不是騰空出世的,它建立在許多基礎之上。但精力有限,我們又不能從一點深究到很遠,所以要選擇自己覺得有必要花時間看的知識點。  這篇文章就看看transformer中的self-attention與attention機制到底有什麼牽連。主要總結兩篇博客,但建議還是找國外的好一點。 【1】https://zhua
相關文章
相關標籤/搜索