1、前述網絡
CNN和RNN幾乎佔據着深度學習的半壁江山,因此本文將着重講解CNN+RNN的各類組合方式,以及CNN和RNN的對比。學習
2、CNN與RNN對比人工智能
一、CNN卷積神經網絡與RNN遞歸神經網絡直觀圖spa
二、相同點:
2.1. 傳統神經網絡的擴展。
2.2. 前向計算產生結果,反向計算模型更新。
2.3. 每層神經網絡橫向能夠多個神經元共存,縱向能夠有多層神經網絡鏈接。設計
三、不一樣點
3.1. CNN空間擴展,神經元與特徵卷積;RNN時間擴展,神經元與多個時間輸出計算
3.2. RNN能夠用於描述時間上連續狀態的輸出,有記憶功能,CNN用於靜態輸出
3. 3. CNN高級100+深度,RNN深度有限3d
3、CNN+RNN組合方式code
1. CNN 特徵提取,用於RNN語句生成圖片標註。視頻
2. RNN特徵提取用於CNN內容分類視頻分類。對象
3. CNN特徵提取用於對話問答圖片問答。blog
4、具體應用
一、圖片標註
基本思路
目標是產生標註的語句,是一個語句生成的任務,LSTM?
描述的對象大量圖像信息,圖像信息表達,CNN?
CNN網絡中全鏈接層特徵描述圖片,特徵與LSTM輸入結合。
具體步驟:
1.1 模型設計-特徵提取
全鏈接層特徵用來描述原圖片
LSTM輸入:word+圖片特徵;輸出下一word。
1.2 模型設計-數據準備
1. 圖片CNN特徵提取
2. 圖片標註生成Word2Vect 向量
3. 生成訓練數據:圖片特徵+第n單詞向量:第n+1單詞向量。
1.3 模型訓練:
1. 運用遷移學習,CNN特徵,語句特徵應用已有模型
2. 最終的輸出模型是LSTM,訓練過程的參數設定:梯度上限(gradient clipping), 學習率調整(adaptivelearning)
3. 訓練時間很長。
1.4 模型運行:
1. CNN特徵提取
2. CNN 特徵+語句開頭,單詞逐個預測
二、視頻行爲識別 :
視頻中在發 生什麼?
2.1經常使用方法總結:
RNN用於CNN特徵融合
1. CNN 特徵提取
2. LSTM判斷
3. 屢次識別結果分析。
不一樣的特徵不一樣輸出。
或者:全部特徵做爲一個輸出。
2.2 RNN用於CNN特徵篩選+融合:
1. 並非全部的視頻 圖像包含肯定分類信息
2. RNN用於肯定哪些frame 是有用的
3. 對有用的圖像特徵 融合。
2.3 RNN用於,目標檢測:
1. CNN直接產生目標候選區
2. LSTM對產生候選區融合(相鄰時刻位置近 似)
3. 肯定最終的精確位置。
2.4 多種模型綜合:
競賽/應用中,爲了產生最好結果,多采用 多模型ensemble形式。
三、圖片/視頻問答
3.1 問題種類
3.2 圖片問答意義
1. 是對純文本語言問答系統的擴展
2. 圖片理解和語言處理的深度融合
3. 提升人工智能應用範圍-觀察,思考,表達
個人博客即將搬運同步至騰訊雲+社區,邀請你們一同入駐:https://cloud.tencent.com/developer/support-plan?invite_code=1wzcx9d4ww853