《Context and Attribute Grounded Dense Captioning》筆記

時間 2021-01-02

原文原文鏈接

CVPR 2019 《Context and Attribute Grounded Dense Captioning》這篇文章設計了一個端到端基於文本和屬性的描述架構，由上下文視覺挖掘模塊和基於多層屬性的描述生成模塊兩部分組成，同時還結合了來自分層語言的輔助監督，以增強學習的描述的獨特性。具體架構如下圖所示：第一部分，上下文特徵提取器（CFE）。先用Faster RCNN學習輸入圖像的視覺特徵，

>>阅读原文<<