挑戰和未來

挑戰無非三方面: 首先,信息量大,不是簡單的詞語就能概括視頻的內容。 一圖勝千言,僅一張圖片就包含大量信息,難以用幾個詞來描述,更何況是短視頻這種富媒體形態。 其次,維度多,視頻是視覺聽覺多模態信息融合載體。 多模態深度語義理解能讓機器更深地理解短視頻背後的含義,然而也面臨着很多挑戰,例如圖像像素如何與語音波形或聲譜圖產生相關性。 最後,業內始終缺乏大規模的數據集。 更大、更具挑戰性的數據集,必然
相關文章
相關標籤/搜索