RNN,LSTM,STFCN

RNN

clipboard.png

前向傳播與後向傳播與神經網絡相似。Loss = -yt*log(yt’)。其中yt表示時刻t正確的結果,yt’是預測的結果。
RNN的弊端:當時間間隔變大時,早些時間的信息難以被學習。直觀緣由:RNN的激活函數tanh能夠映射到-1到1之間,利用梯度降低調優時用鏈式法則,不少個小於1的數值相乘會很快逼近0。網絡

LSTM

LSTM是對S節點作了新的處理。不限制輸入和輸出的大小。函數

clipboard.png

第一步是忘記門,輸入是ht-1和xt,將上一時刻的輸出h(t-1)和這一時刻的輸入進x(t)行拼接(concat),而後判斷以多大的程度來保留這部分信息(獲得機率值)。Sigmoid函數。
第二步是更新準備。Sigmoid層決定什麼層須要更新,i(t)等式表達的是咱們以多大機率來更新信息。Tanh層建立了新的候選值向量Ct,表示如今所有的信息。
第三步是更新狀態。 首先把舊狀態與f(t)相乘,就丟棄掉咱們肯定須要丟棄的信息,而後加號的右部,以肯定要更新的信息,經過相加操做獲得新的細胞狀態Ct。
第四步是輸出。首先sigmoid函數肯定哪一個部分輸出,而後用tanh處理細胞狀態(一個-1到1之間的值),而後與Ot相乘,輸出咱們肯定輸出的部分。
解決問題的直觀理解:
S(t)= tanh(x(t)U + WS(t-1))是RNN在t時刻的狀態值。以後已說過問題。
clipboard.png是LSTM的狀態值,相加,不容易出現接近0的狀況。性能

STFCN(論文)

摘要

本文提出了一種同時包含時間和空間特徵的對街道場景進行語義分割的方法。目前的CNN對語義分割任務中的空間特徵提供了良好的支持。如何將時間特徵也能發揮好的效應?咱們提出了一個基於LSTM結構的模型來講明視頻圖像的時間特徵。系統輸入是視頻的幀,輸出相應大小的圖像。對於分割任務,本文的模型包括三個部分,首先用CNN提取局部空間特徵,而後用LSTM提取時間特徵,最後卷積時間空間特徵獲得基於像素的預期。亮點是創建空間-時間CNN,能夠端到端的對視頻進行分割。實驗數據集是Camvid和NYUDv2,取得了state-of-the-art的分割結果。學習

簡介

在不少處理視頻流的應用中,語義分割只是做爲預處理的任務。因此,語義分割的結果直接影響到後續的處理結果。
語義分割方法使用圖像數據中被選位置和語義環境。一系列像素一般被預測爲一類或者是一個分割。若是隻使用空間特徵,至關於視頻中的每張圖片都是相互獨立的,這樣不能充分利用圖像中的全部信息。若是加上時間特徵,就能夠分辨出不一樣種類的兩個物體,擁有相同空間特徵的,但不一樣的時間特徵維度。咱們提出嵌入在空間特徵上面的組件。這個組件也能夠看做是一系列的記憶單元,這些單元存儲了以前的幀分配的區域。這就說明以前的regions能夠用來判斷當前的特徵。咱們用時間-空間輸出特徵來處理當前的視頻流。
與其它分割方法同樣,咱們使用了一些全卷積層來進行區域的語義分割。這些全卷積層用於時間-空間分類。最後用反捲積層將獲得的預測擴大到原始的柵格大小來完成像素預測。
基於CNN的方法一般包括兩部分,一個事描述視頻流中不一樣區域的類做爲特徵,一個是對標註的特徵採用上採樣用上採樣獲得給定視頻流的大小。本文模型的優勢是能夠調整並嵌入第一部分的最後,也就是在推測以前。FCN-8,dilated convolution已經用了。測試

clipboard.png

Contributions:
(1) 能夠嵌入到當前最早進水平的方法中
(2) 提出了基於時間和空間特徵的端到端的語義分割網絡。
(3) 提出了一個將傳統的全卷積網絡轉成時間-空間CNN的模型。
(4) 在兩個數據集上達到了start-of-the-art。優化

模型

模型主要有4步:輸入是It,也就是幀。FCN下采樣輸入圖片,定義It用一個大小爲WH的圖像柵格,m個不一樣的Maps中有特徵集St^1..m。FCN的輸出是大小爲W’H’的St^1..m。其中,W‘<<W,H’<<H。圖片It用特徵集來表示,每一個點(i,j)都有1=<i<=W’,1=<j<=H’。
St^1..m是It中m個接受域的描述。
咱們把時間-空間模型放在最後一個卷積層的上面。因此特徵集{St^1..m}被表示爲時間-空間特徵集{St^1..m}^(i,j)。對這些特徵用FCN分類層作分類,可獲得視頻中這些區域的語義類別。最後上採樣這些預測結果到It幀的大小。spa

時間-空間模型

關於It中的每一個W’H’區域,被一個Ω柵格描述,LSTM嵌入。所以一共有W’H’個LSTMs。元素{St^1..m}^(i,j)定義了It中的一個區域的空間特徵。這些特徵用LSTM^(i,j)來處理,推測出在It以前幀的相等區域的時間特徵聯繫。這樣,時間空間特徵都能考慮到。咱們把LSTM嵌入到每一個區域。時間和空間特徵公式以下:3d

clipboard.png

其中Ω‘的大小和Ω相等。M值指定分配時間空間特徵給每一個點的map,用來描述It中一個相等的區域或分割。如今Ω‘中每一個點的標籤被預測,以後上採樣到原始圖片大小。總更新公式以下:視頻

clipboard.png

獲得的結果,ct-1是上一幀的特徵?blog

實驗結果

用的Caffe。將LSTM合併到Caffe中。在nvidia titan和nvidia titan-x gpus上測試代碼。
首先介紹如何把時間-空間模型嵌入到FCNs和dilation CNN中。
對於FCN,把時間-空間模塊放到FCN-8和FCN-32的fc7上面。Fc7是最深的全卷積層,有最大的感知野,與前面較淺的卷積層相比有更過的語義信息。圖1是對FCN-Alexnet的修改。嵌入以後叫作STFCN-8和STFCN-32。咱們的時間-空間模型包括有30個隱藏節點的LSTMs,在CamVid數據集上3 time-steps(一次feed 3幀到時間-空間網絡)。選擇3和CamVid數據集有關。一個視頻一共有90幀,每30幀有一張標註的圖像。咱們微調了STFCN在pascal voc上預訓練的權值,momentum設爲0.9,學習率10e-5。
對於Dilation8,輸入是9001100,fc7的輸出是6691,對時間-空間模型來講計算維度太高,先下采樣到2130,再輸出到時間-空間模型上。獲得的時間-空間特徵輸出到一個卷積層來減少特徵map到最後一層的大小,作上採樣,大小爲6691。將兩個結果混合到context模型中,對全部特徵作一個基於元素的加操做。這裏是在CamVid上預訓練。Momentum設爲0.9,學習率是10e-5。

clipboard.png

clipboard.png

本文的方法與FSO不一樣,不須要預處理或特徵優化來強化結果。而FSO用CRF模型來處理光流。計算效率和速度對在線視頻處理來講是個劣勢。在另外一個數據集上的測試結果。

clipboard.png

在這個數據集上,基於該數據集的特性,feed 不一樣長度的圖像序列。具體的數據結果以下:

clipboard.png

討論

只用了限定的視頻幀做爲一個序列,依據提供標註的幀數。應該在更多數據上測試發現序列的長度對系統性能的影響。

相關文章
相關標籤/搜索