對Image caption的一些理解(看圖說話)

1. 背景 ​ 在計算機視覺中,圖像分類和目標檢測任務是比較成熟的領域,已經應用到實際的產品領域。而「看圖說話」要實現的功能是,給定一張圖像,計算機能告訴我們圖片的內容,顯然,這會使一個比較複雜的任務,因爲它涉及到了如下的子任務: 1)檢測圖像中的目標; 2)目標的屬性,比如顏色、尺寸等; 3)目標之間的關聯; 4)語言模型,用於把上面的信息表述成句子; 2. 相關的論文 2.1 「Show an
相關文章
相關標籤/搜索