《Context and Attribute Grounded Dense Captioning》筆記

CVPR 2019 《Context and Attribute Grounded Dense Captioning》這篇文章設計了一個端到端基於文本和屬性的描述架構,由上下文視覺挖掘模塊和基於多層屬性的描述生成模塊兩部分組成,同時還結合了來自分層語言的輔助監督,以增強學習的描述的獨特性。具體架構如下圖所示: 第一部分,上下文特徵提取器(CFE)。先用Faster RCNN學習輸入圖像的視覺特徵,
相關文章
相關標籤/搜索