Long-term Recurrent Convolutional Networks for Visual Recognition and Description

1 INTRODUCTION        圖像和視頻的識別和描述是計算機視覺的根本挑戰。近年來,針對圖像識別任務的監督卷積神經網絡(CNN)模型已經取得了顯着的進步,並且最近提出了一些對視頻處理的擴展。理想情況下,視頻模型應該允許對可變長度的輸入序列進行處理,並且還提供可變長度的輸出,包括生成 超出常規一對一預測任務 的全長句子描述。在本文中,我們提出了Long-term Recurrent C
相關文章
相關標籤/搜索