Stacked Attention Networks for Image Question Answering閱讀筆記

本文提出了一種學習從圖像中回答自然語言問題的疊層注意力網絡(SANs)。SANs使用問題的語義表示作爲查詢來搜索圖像中與答案相關的區域。 文章鏈接:Stacked Attention Networks for Image Question Answering 一、模型 SAN由三個主要部分組成: (1)圖像模型,使用CNN提取高級圖像表示; (2)問題模型,使用CNN或LSTM提取問題的語義向量;
相關文章
相關標籤/搜索