自適應注意力機制在Image Caption中的應用

Introduction 目前大多數的基於 Attention 機制的 Image Captioning 模型採用的都是 encoder-decoder 框架。然而在 decode 的時候,decoder 應該對不同的詞有不同的 Attention 策略。例如,「the」、「of」等詞,或者是跟在「cell」後面的「phone」等組合詞,這類詞叫做非視覺詞(Non-visual Word),更多依
相關文章
相關標籤/搜索