看圖說話——CNN和LSTM的聯合應用

看圖說話是深度學習波及的領域之一。其基本思想是利用卷積神經網絡來做圖像的特徵提取,利用LSTM來生成描述。但這算是深度學習中熱門的兩大模型爲數不多的聯合應用了。 本文是參考文獻[1]的筆記,論文是比較早的論文,15年就已經發表了,不新。但還是想寫下來它的細節以備後用。 關於CNN(卷積神經網絡)和LSTM(長短期記憶網絡)的細節,本文不再贅述其細節。讀者們需要了解的是: 卷積神經網絡是一種特別有效
相關文章
相關標籤/搜索