Attention is all you need閱讀筆記

xinxinzhang 每個單元的介紹: 一、add&norm (1).norm(層正則化): 原文:http://blog.csdn.net/zhangjunhit/article/details/53169308 本文主要是針對 batch normalization 存在的問題 提出了 Layer Normalization 進行改進的。 這裏首先來回顧一下 batch normalizat
相關文章
相關標籤/搜索