【論文閱讀】Combo-Attention Network for Baidu Video Advertising

text-to-video search is a cross-modal search. 要做什麼事? 文本query,輸出相關的視頻(短視頻)。屬於跨模態(text——video)檢索。 關鍵: 文本的特徵怎麼選,視頻的特徵又怎麼選呢? 如何衡量文本跟視頻之間的相似度? 網絡如何融合兩者的特徵呢? 創新點 數據 視頻特徵提取 視頻的local feature提取 使用預訓練的faster rc
相關文章
相關標籤/搜索