Normalized and Geometry-Aware Self-Attention Network for Image Captioning

重點在自注意力機制的image captioning方法上。 現有的Self-Attention方法作者認爲存在兩個問題: 一個是:Internal Covariate Shift 我的理解就是輸入分佈不一樣 解決辦法就是Normalization。 原來的Transformer當中也是有Normalization的,但是作者認爲原來的做法不夠好: 翻譯過來,就是要把norm放到自注意力模塊裏面
相關文章
相關標籤/搜索