Neural Baby Talk筆記

時間 2020-12-23

原文原文鏈接

在網上看到不少對這篇文章的解析，今天就來總結一下，其中也有個人的見解。文章的做法是：首先生成一個模板這個模板裏面的插槽對應了需要填入的詞所在的region。對於一張輸入的圖片，將物體檢測的結果和CNN中間層的features輸入帶有Attention的RNN裏，RNN給出s_t和h_t，ht經過softmax生成P_txt^t，而s_t與v_1, v_2, v_3...v_N一起生成P_r^

>>阅读原文<<