Normalized and Geometry-Aware Self-Attention Network for Image Captioning

時間 2020-12-30

原文原文鏈接

重點在自注意力機制的image captioning方法上。現有的Self-Attention方法作者認爲存在兩個問題：一個是：Internal Covariate Shift 我的理解就是輸入分佈不一樣解決辦法就是Normalization。原來的Transformer當中也是有Normalization的，但是作者認爲原來的做法不夠好：翻譯過來，就是要把norm放到自注意力模塊裏面

>>阅读原文<<