attention model

先看下之前用CNN+RNN做Captioning的model,圖片經過CNN(包括CONV和FC)後的feature輸入到RNN的入口處(RNN僅此一次使用到圖片信息),然後用training data中包含的對應的文字信息求出vocabulary的分佈,如此即可計算loss來進行training 上面的這個方法有些缺陷,我們希望 1. RNN能多次看圖片的信息 2. 每次能focus圖片的不同部
相關文章
相關標籤/搜索