image/vedio caption 論文分享

時間 2020-12-20

原文原文鏈接

DenseCap: Fully Convolutional Localization Networks for Dense Captioning 【2015】摘要：我們介紹一種密集描述任務，這個要求計算機視覺系統可以定位和用自然語言描述圖中辨識到的區域。密集描述任務概括爲當描述只是單個單詞時的目標檢測任務和當預測的區域爲覆蓋整張圖像的圖像描述任務。我們提出了一種全卷積定位神經網絡，簡稱FCL

>>阅读原文<<