文字圖像處理之跨模態檢索和VQA視覺問答

以下內容全是學習自一位學長的讀書筆記!!!! 1.跨模態檢索 他的定義就是將一個模態的數據(我暫且將認爲是圖片)作爲查詢去檢索了一個與之相關的模態(我認爲可以是視頻)的數據,作爲查詢接過來返回。 一般會將模態分爲: 1.自然語言處理(這就是傳說中自然語言呀,寫和說) 2.視覺信號(也就是圖片和視頻) 3.聲音信號(對聲音的編碼和韻律) 這就像在輸入文字的搜索引擎上面找對應的圖片和視頻,這就是跨模態
相關文章
相關標籤/搜索