論文主要介紹一種多人協做的視頻事件識別的方法,使用attention模型+RNN網絡,最近粗淺地學習了RNN網絡,它比較適合用於處理序列的存在上下文做用的數據。網絡
NCAA Basketball數據集app
這個數據集是做者新構建的,一個事件4秒長度,在論文中共需識別11個事件。並且從訓練集子集經過標註人物的bounding box學習了一個multibox detector,來識別全部幀中的人物bounding box。函數
RNN模型學習
論文使用了RNN模型中的LSTM來處理幀序列。網絡的結構以下圖,其中BLSTM表明雙向的LSTM結構spa
每一個Pi-BLSTM跟蹤每一個人物幀序列中的狀態,方框的厚度表明attention做爲key人物的權值。視頻
首先,每一幀提取1024維度的特徵,而對於每幀的每個player,提取2805維特徵(1440維位置spatial的信息以及1365維appearance信息)。首先使用BLSTM計算hidden state ,它保存了全局上下文的信息。計算式子以下blog
而後能夠利用單向的LSTM計算事件狀態事件
最後,對於每一個事件k,都定義一個權向量,計算它們的內積來肯定事件的分類。偏差函數能夠定義:io
其中是對於視頻原label,若是屬於k則爲1,不然爲-1。event
Attention 模型
Attention模型的主要做用在於識別主人物並增大他在計算event state中所起的做用,在這裏會利用一個softmax函數來實現上述的功能。論文提出了兩種思路,分別是對每一個人物進行跟蹤的模型以及不跟蹤的模型。
跟蹤模型
利用KTL tracker和圖匹配找到每幀對應的人物,併爲每一個人物創建一個BLSTM網絡,用於計算hidden state ,得。計算softmax函數分配每一個人物在每一幀的權重,從而識別關鍵人物,以下計算
其中是一個多層感知機。
非跟蹤模型
直接使用替代,能夠獲得計算方法爲