image caption學習筆記

時間 2020-12-20

原文原文鏈接

show and tell cnn-lstm結構，cnn部分採用vgg,使用的是vgg的fc2層作爲輸出圖片特徵。得到圖片特徵後，將其輸入一個線性層（CNN），得到 x − 1 x_{-1} x−1作爲第一個lstm的輸入，對於輸入句子的每個字 s t s_{t} st，將其與權重參數 w e w_e we相乘，輸出作爲lstm的輸入，模型結構如下， inference 有兩種方法得到輸出

>>阅读原文<<