Spatio-Temporal graph for video captioning with knowledge distillation

Spatio-Temporal graph for video captioning with knowledge distillation 利用知識蒸餾的時空圖做視頻描述 摘要 視頻描述是一項要求對視覺場景有一個深度理解的具有挑戰性的任務。最先進的生成描述的方法要麼使用場景級要麼使用對象級信息,然而卻沒有清晰地建模對象的相互作用。因此,他們往往無法做出有視覺根據的預測,並且對虛假的相關性很敏感。
相關文章
相關標籤/搜索