Neural Baby Talk筆記

在網上看到很多對這篇文章的解析,今天就來總結一下,其中也有我的的看法。網絡 文章的作法是:首先生成一個模板3d 這個模板裏面的插槽對應了須要填入的詞所在的region。blog 對於一張輸入的圖片,將物體檢測的結果和CNN中間層的features輸入帶有Attention的RNN裏,RNN給出s_t和h_t,ht通過softmax生成P_txt^t,而s_t與v_1, v_2, v_3...v_N
相關文章
相關標籤/搜索