【論文閱讀】Combo-Attention Network for Baidu Video Advertising

時間 2021-01-09

原文原文鏈接

text-to-video search is a cross-modal search. 要做什麼事？文本query，輸出相關的視頻（短視頻）。屬於跨模態（text——video）檢索。關鍵：文本的特徵怎麼選，視頻的特徵又怎麼選呢？如何衡量文本跟視頻之間的相似度？網絡如何融合兩者的特徵呢？創新點數據視頻特徵提取視頻的local feature提取使用預訓練的faster rc

>>阅读原文<<