Neural Baby Talk筆記

在網上看到不少對這篇文章的解析,今天就來總結一下,其中也有個人的見解。 文章的做法是:首先生成一個模板 這個模板裏面的插槽對應了需要填入的詞所在的region。 對於一張輸入的圖片,將物體檢測的結果和CNN中間層的features輸入帶有Attention的RNN裏,RNN給出s_t和h_t,ht經過softmax生成P_txt^t,而s_t與v_1, v_2, v_3...v_N一起生成P_r^
相關文章
相關標籤/搜索