Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning.CVPR,2019. 摘要 自動生成視頻字幕是一項基本的計算機視覺的任務,最近使用CNN和RNN技術解決該任務。這些方法主要關注於使用RNN序列學習方法生成更好的字幕,但卻忽略了使用CNN提取特徵的重要性。我們精
相關文章
相關標籤/搜索