image caption學習筆記

show and tell cnn-lstm結構,cnn部分採用vgg,使用的是vgg的fc2層作爲輸出圖片特徵。得到圖片特徵後,將其輸入一個線性層(CNN),得到 x − 1 x_{-1} x−1​作爲第一個lstm的輸入,對於輸入句子的每個字 s t s_{t} st​,將其與權重參數 w e w_e we​相乘,輸出作爲lstm的輸入, 模型結構如下, inference 有兩種方法得到輸出
相關文章
相關標籤/搜索