讀書筆記---Explain Images with Multimodal Recurrent Neural Networks

     之前的方法將image caption任務看成檢索任務,對句子和圖像提取特徵,並將他們映射到相同的語義嵌入空間,只能對數據集中已經存在的圖像進行註釋,不能描述先前看不到的對象和場景。      這篇文章提出了一個多模式遞歸神經網絡模型(m-RNN)用於解釋圖像的內容。這個模型根據已經給出的圖片和之前生成的單詞來預測下一個單詞。m-RNN主要是由兩個子網絡組成的:用於句子的深度遞歸網絡和用
相關文章
相關標籤/搜索