attention model

時間 2021-01-04

原文原文鏈接

先看下之前用CNN+RNN做Captioning的model，圖片經過CNN（包括CONV和FC）後的feature輸入到RNN的入口處（RNN僅此一次使用到圖片信息），然後用training data中包含的對應的文字信息求出vocabulary的分佈，如此即可計算loss來進行training 上面的這個方法有些缺陷，我們希望 1. RNN能多次看圖片的信息 2. 每次能focus圖片的不同部

>>阅读原文<<