2018年時序行為檢測綜述
[1] Rethinking the Faster R-CNN Architecture for Temporal Action Localization(2018CVPR)
簡介:
谷歌的一篇文章,思路類似於Faster R-CNN,但基於影片主要有三個方面的改動:
Receptive Field Alignment:
因為時序行為的時間長短不一(有的幾秒,有的一分鐘),所以在進proposal generation的時候不能用相同的感受野。如下圖左所示:
那怎麼才能獲得野想要的感受野s呢,文章採用max-pooling和Dilated convolutions來使感受野達到與anchor一樣的大小:
Context Feature Extraction:
為了獲得前文和後文的資訊,必須擴大原來的感受野,因此本文在圖三的基礎上使用了雙倍的dilation rate,並且在初始的pooling上也使用2倍的kernel size,如下圖所示:
同樣在soi pooling的時候也融合了動作前文和後文的資訊:
Late Feature Fusion:
對RGB和光流的feature map透過兩個不同網路後進行fusion
結果:
THUMOS14 上的mAP@0。5 為 42。8%
[2] One-shot Action Localization by Learning Sequence Matching Network(2018CVPR)
思路:
本文提出了一種基於Matching Network的one-shot方法應用於時序行為檢測,主要有三個子網路組成,具體結構如下:
不同類別的少量樣本和透過用sliding-window在未修剪的影片產生proposal分別經過Video encoder network獲得固定長度特徵。這些特徵有不同行為的proposal和樣本組成。在每個time step中,每對proposal和樣本透過similarity network產生correlation score,並用這些score合成一個correlation score矩陣。最後用labeling network基於該矩陣預測每proposal的類別。
Video encoder network:
將一個影片分成S個片段,每個片段用使用TSN編碼,最後用LSTM來產生最後的特徵。LSTM採用ranking loss來訓練。
Similarity network:
為訓練的樣本,每個訓練樣本在經過Video Encoder後獲得特徵表示,
表示
的編碼向量,FCE表達如下:
FCE採用的是雙向LSTM獲得
和前後的資訊。
最終透過上面的式子獲得proposal和樣本的相似度。
Labeling network:
表示樣本,
表示proposal,透過連線
可以獲得correlation matrix,透過大小為
的視窗在correlation matrix上滑動來比較每個樣本的距離獲得proposal的probability,這樣做的好處可以考慮上下文的資訊。如果一個proposal和某個樣本的correlation很大,表明該proposal屬於該樣本,如果與所有樣本的correlation都很低,表示該proposal為背景。
訓練:
採用元學習的方法來訓練,損失函式如下:
Pretraining for Video Encoder&Similarity Net:
因為Video encoder 和 similarity network中有許多引數,因此對其進行預訓練。在訓練的時候僅使用trimmed的資料。在預訓練的時候採用rank loss
結果:
THUMOS14 上的mAP@0。5 為 13。6%(樣本為1)
[3] Action Search: Spotting Actions in Videos and Its Application to Temporal Action Localization(2018ECCV)
簡介
:本文提出了一個新的任務:action search,即在一個影片序列中快速找到行為的位置,同時本文分別在AVA和THUMOS14 的基礎上提出了用於該任務的資料庫Human Searches。
思路:
本文的網路結構如下:
輸入一段影片片段
,
輸出一個時序位置的序列
。
在每一步,首先透過Visual Encoder提取
的特徵
,
為 LSTM的輸出。對第i的LSTM,輸入
,輸出
。
LOSS:
實驗結果
THUMOS14 上的mAP@0。5 為 30。8%
[3] BSN: Boundary Sensitive Network for Temporal Action Proposal Generation (2018ECCV)
簡介
:本文主要解決的是proposal的生成問題。主要採用的是bottom-up的方法,即分別生成starting和ending的機率序列,然後基於這個機率序列生成proposals,最後評估每個proposal的分數,如下圖所示:
Visual Encoding的過程採用的是TSN的方法。
Boundary-Sensitive Network:
由三個部分組成:Temporal evaluation module,Proposal generation module,proposal evaluation module。
在Temporal evaluation module,用三層卷積網路生成每個時序位置的開始,結束和動作的機率。在Proposal generation module,生成候選的proposal,並且構造相應的proposal-level feature。對於構造候選proposal的方法:1。高於0。9的閾值;2。在某個位置高於前面和後面的機率;如下圖所示:
對於每個構造的候選proposal,定義三個區域,分別為中間區域
,開始區域
和結束區域
。透過線性差值取樣的方式獲得Boundary-Sensitive Proposal (BSP) feature,如下圖所示:
最後,在Proposal evaluation module對每個候選的proposal進行評估
實驗結果
THUMOS14 上的mAP@0。5 為 36。9%
[4] CTAP: Complementary Temporal Action Proposal Generation (2018ECCV)
簡介
:本文的思路比較明確,考慮到actionness score在某些分數偏低的時候會漏檢proposal,於是融合了sliding window,當
較低的時候表明為漏檢的proposal:
實驗結果
THUMOS14 上的mAP@0。5 為 29。9%
[5] Online Detection of Action Start in Untrimmed,Streaming Videos (2018ECCV)
簡介
:這篇文章並不是時序行為檢測的,但比較有意思就列出來了。本文提出了一個新的任務:Online Detection of Action Start (ODAS),即行為開始時間的檢測。如下所示:
作者認為ODAS主要有三個挑戰:1)Action Start和背景很相似; 2)start window會摻雜背景和行為的資訊; 3)每個action實體只有很少的start window訓練樣本。
為了解決這些問題提出了三個方法:
Adaptively Sample the Training Data:
在訓練的過程中,儘可能多的自適應取樣start windows。
Model the Temporal Consistency:
考慮到following-up windows和start windows有很大的相似度,所以透過分別提取兩個window的特徵,比加入
similarity。這樣做也能很好地區分start windows和background。
Generate Hard Negative Samples via GAN:
本文提出Hard negatives,即在特徵空間與start windows僅有一點不同。為了區分這兩個,作者用GAN生成hard negatives,並於之前的一起訓練。具體網路結構如下: