讀書筆記---Explain Images with Multimodal Recurrent Neural Networks

時間 2020-12-24

原文原文鏈接

之前的方法將image caption任務看成檢索任務，對句子和圖像提取特徵，並將他們映射到相同的語義嵌入空間，只能對數據集中已經存在的圖像進行註釋，不能描述先前看不到的對象和場景。這篇文章提出了一個多模式遞歸神經網絡模型（m-RNN）用於解釋圖像的內容。這個模型根據已經給出的圖片和之前生成的單詞來預測下一個單詞。m-RNN主要是由兩個子網絡組成的：用於句子的深度遞歸網絡和用