多模態在內容理解的應用

2020 年機器學習趨勢:建立統一的跨媒體多模態內容理解內核 描述類任務(表示,轉換,對齊,融合) 視頻描述 1 Predicting Visual Features from Text for Image and Video Caption Retrieval:輸入原始圖像,圖像標題和衆多描述圖像的句子,將它們映射到隱空間併合成視頻描述。 2 Watch, Listen, and Describ
相關文章
相關標籤/搜索