《論文閱讀》Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning

留個筆記自用 Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning 做什麼 Cross-modal retrieval between videos and texts,跨模態檢索,簡單來說就是根據一段描述文字檢索出展現出這段文字內容的視頻 做了什麼 這篇文章將一句話看成三個層級,即全局轉局部,首先是Events事件
相關文章
相關標籤/搜索