挑戰和未來

時間 2021-01-12

原文原文鏈接

挑戰無非三方面：首先，信息量大，不是簡單的詞語就能概括視頻的內容。一圖勝千言，僅一張圖片就包含大量信息，難以用幾個詞來描述，更何況是短視頻這種富媒體形態。其次，維度多，視頻是視覺聽覺多模態信息融合載體。多模態深度語義理解能讓機器更深地理解短視頻背後的含義，然而也面臨着很多挑戰，例如圖像像素如何與語音波形或聲譜圖產生相關性。最後，業內始終缺乏大規模的數據集。更大、更具挑戰性的數據集，必然