一、前述
CNN和RNN幾乎佔據著深度學習的半壁江山,所以本文將著重講解CNN+RNN的各種組合方式,以及CNN和RNN的對比。
二、CNN與RNN對比
1.CNN卷積神經網路與RNN遞迴神經網路直觀圖:
2.相同點:
2。1。 傳統神經網路的擴充套件;
2。2。 前向計算產生結果,反向計算模型更新;
2。3。 每層神經網路橫向可以多個神經元共存,縱向可以有多層神經網路連線。
3.不同點:
3。1。 CNN空間擴充套件,神經元與特徵卷積;RNN時間擴充套件,神經元與多個時間輸出計算;
3。2。 RNN可以用於描述時間上連續狀態的輸出,有記憶功能,CNN用於靜態輸出;
3。3。 CNN高階100+深度,RNN深度有限。
三、CNN+RNN組合方式
1。 CNN 特徵提取,用於RNN語句生成圖片標註。
2。 RNN特徵提取用於CNN內容分類影片分類。
3。 CNN特徵提取用於對話問答圖片問答。
四、具體應用
1.圖片標註
基本思路
目標是產生標註的語句,是一個語句生成的任務,LSTM?
描述的物件大量影象資訊,影象資訊表達,CNN?
CNN網路中全連線層特徵描述圖片,特徵與LSTM輸入結合。
具體步驟:
1.1 模型設計-特徵提取
全連線層特徵用來描述原圖片,LSTM輸入:word+圖片特徵,輸出下一word。
1.2 模型設計-資料準備
(1)圖片CNN特徵提取;
(2)圖片標註生成Word2Vect向量;
(3)生成訓練資料:圖片特徵+第n單詞向量:第n+1單詞向量。
1.3 模型訓練:
(1)運用遷移學習,CNN特徵,語句特徵應用已有模型;
(2)最終的輸出模型是LSTM,訓練過程的引數設定:梯度上限(gradient clipping), 學習率調整(adaptivelearning);
(3)訓練時間很長。
1.4 模型執行:
(1)CNN特徵提取;
(2)CNN 特徵+語句開頭,單詞逐個預測,
2.影片行為識別
:
影片中在發生什麼?
2.1常用方法總結:
RNN用於CNN特徵融合。
(1)CNN 特徵提取;
(2)LSTM判斷;
(3)多次識別結果分析。
不同的特徵不同輸出。
或者:所有特徵作為一個輸出。
2.2 RNN用於CNN特徵篩選+融合:
(1)並不是所有的影片 影象包含確定分類資訊;
(2)RNN用於確定哪些frame是有用的;
(3)對有用的影象特徵融合。
2.3 RNN用於,目標檢測:
(1)CNN直接產生目標候選區;
(2)LSTM對產生候選區融合(相鄰時刻位置近似);
(3)確定最終的精確位置。
2.4 多種模型綜合:
競賽/應用中,為了產生最好結果,多采用多模型ensemble形式。
3.圖片/影片問答
3.1 問題種類
3.2 圖片問答意義
(1)是對純文字語言問答系統的擴充套件;
(2)圖片理解和語言處理的深度融合;
(3)提高人工智慧應用範圍-觀察,思考,表達。
線上觀看更多CNN影片:
歡迎關注“AI不錯喲”公眾號,瞭解更多AI學習資訊,更多競賽相關內容。