伯克利人工智能研究項目：爲圖像自動添加準確的說明

時間 2020-12-29

原文原文鏈接

人類可以很容易地推斷出給定圖像中最突出的物體,並能描述出場景內容,如物體所處於的環境或是物體特徵。而且,重要的是,物體與物體之間如何在同一個場景中互動。視覺描述的任務是開發視覺系統來生成圖像中物體的上下文描述。視覺描述是具有挑戰性的,因爲它不僅需要識別對象目標,還有其他視覺元素,如行動和屬性,然後構建一個流利的句子去描述圖像中的對象,其屬性及行動(如：棕熊站森林裏的一顆石頭上)。視覺描述現狀 L