視覺語言兩開花!谷歌提出全新視覺語言橋樑-3

小老虎在動物園指着人類開心地說道。 對動物而言可能有些誇張,但是人類在進行事物的描述時,大多都是一邊指着目標物體,一邊進行語言的描述嗎? 來自谷歌研究院的學者們以此爲基礎提出了「定位敘事」圖像標註方法,在傳統圖像描述標註方法的基礎上,巧妙的利用鼠標軌跡爲每個單詞都提供了較爲密集的視覺基礎,可以作爲一個更爲細粒度的圖像監督信號,與此同時,定位敘事還連接了四種模態的數據,包括圖像、語音描述、文字描述和
相關文章
相關標籤/搜索