Exploring Visual Relationship for Image Captioning論文筆記

最近看了這篇論文, 寫了些心得體會,僅代表個人看法,如有不對還請多多指教! 本文提出了一種新的設計方案,在基於注意的編解碼框架下,探討圖像描述對象之間的聯繫。具體來說,我們提出了圖形卷積網絡和長期短期內存(稱爲gcn-lstm)架構,這種新穎的方法將語義和空間對象關係整合到圖像編碼器中。從技術上講,我們根據圖像中檢測到的對象的空間和語義聯繫來構建關係圖形。然後,通過GCN利用圖形結構,對每個區域的
相關文章
相關標籤/搜索