Guiding the Long-Short Term Memory Model for Image Caption Generation

指導長時記憶以生成圖像字幕 摘要:在這項工作中,我們專注於圖像標題生成的問題。 我們提出了長期短期記憶(LSTM)模型的擴展,簡稱爲gLSTM。 特別是,我們將從圖像中提取的語義信息作爲額外輸入添加到LSTM塊的每個單元中,目的是將模型引向更緊密地耦合到圖像內容的解決方案。 此外,我們探索了用於波束搜索的不同長度歸一化策略,以防止偏愛短句。 在各種基準數據集(例如Flickr8K,Flickr30
相關文章
相關標籤/搜索