2018年時序行為檢測綜述

[1] Rethinking the Faster R-CNN Architecture for Temporal Action Localization(2018CVPR)

簡介:

谷歌的一篇文章,思路類似於Faster R-CNN,但基於影片主要有三個方面的改動:

2018年時序行為檢測綜述(一)

Receptive Field Alignment:

因為時序行為的時間長短不一(有的幾秒,有的一分鐘),所以在進proposal generation的時候不能用相同的感受野。如下圖左所示:

2018年時序行為檢測綜述(一)

那怎麼才能獲得野想要的感受野s呢,文章採用max-pooling和Dilated convolutions來使感受野達到與anchor一樣的大小:

2018年時序行為檢測綜述(一)

Context Feature Extraction:

為了獲得前文和後文的資訊,必須擴大原來的感受野,因此本文在圖三的基礎上使用了雙倍的dilation rate,並且在初始的pooling上也使用2倍的kernel size,如下圖所示:

2018年時序行為檢測綜述(一)

同樣在soi pooling的時候也融合了動作前文和後文的資訊:

2018年時序行為檢測綜述(一)

Late Feature Fusion:

2018年時序行為檢測綜述(一)

對RGB和光流的feature map透過兩個不同網路後進行fusion

結果:

THUMOS14 上的mAP@0。5 為 42。8%

[2] One-shot Action Localization by Learning Sequence Matching Network(2018CVPR)

思路:

本文提出了一種基於Matching Network的one-shot方法應用於時序行為檢測,主要有三個子網路組成,具體結構如下:

2018年時序行為檢測綜述(一)

不同類別的少量樣本和透過用sliding-window在未修剪的影片產生proposal分別經過Video encoder network獲得固定長度特徵。這些特徵有不同行為的proposal和樣本組成。在每個time step中,每對proposal和樣本透過similarity network產生correlation score,並用這些score合成一個correlation score矩陣。最後用labeling network基於該矩陣預測每proposal的類別。

Video encoder network:

2018年時序行為檢測綜述(一)

將一個影片分成S個片段,每個片段用使用TSN編碼,最後用LSTM來產生最後的特徵。LSTM採用ranking loss來訓練。

Similarity network:

2018年時序行為檢測綜述(一)

\chi

為訓練的樣本,每個訓練樣本在經過Video Encoder後獲得特徵表示,

g(x_i)

表示

x_i

的編碼向量,FCE表達如下:

2018年時序行為檢測綜述(一)

FCE採用的是雙向LSTM獲得

g(x_i)

和前後的資訊。

2018年時序行為檢測綜述(一)

2018年時序行為檢測綜述(一)

2018年時序行為檢測綜述(一)

最終透過上面的式子獲得proposal和樣本的相似度。

Labeling network:

2018年時序行為檢測綜述(一)

x_i

表示樣本,

\hat x_n

表示proposal,透過連線

cor_{i,\hat x_n}

可以獲得correlation matrix,透過大小為

l

的視窗在correlation matrix上滑動來比較每個樣本的距離獲得proposal的probability,這樣做的好處可以考慮上下文的資訊。如果一個proposal和某個樣本的correlation很大,表明該proposal屬於該樣本,如果與所有樣本的correlation都很低,表示該proposal為背景。

訓練:

採用元學習的方法來訓練,損失函式如下:

2018年時序行為檢測綜述(一)

2018年時序行為檢測綜述(一)

2018年時序行為檢測綜述(一)

Pretraining for Video Encoder&Similarity Net:

因為Video encoder 和 similarity network中有許多引數,因此對其進行預訓練。在訓練的時候僅使用trimmed的資料。在預訓練的時候採用rank loss

2018年時序行為檢測綜述(一)

2018年時序行為檢測綜述(一)

2018年時序行為檢測綜述(一)

結果:

THUMOS14 上的mAP@0。5 為 13。6%(樣本為1)

[3] Action Search: Spotting Actions in Videos and Its Application to Temporal Action Localization(2018ECCV)

簡介

:本文提出了一個新的任務:action search,即在一個影片序列中快速找到行為的位置,同時本文分別在AVA和THUMOS14 的基礎上提出了用於該任務的資料庫Human Searches。

2018年時序行為檢測綜述(一)

思路:

本文的網路結構如下:

2018年時序行為檢測綜述(一)

輸入一段影片片段

(x_i,x_2,....,x_n)

輸出一個時序位置的序列

(f(x_1),f(x_2)....,f(x_n))

在每一步,首先透過Visual Encoder提取

x_i

的特徵

V_i

h_i

為 LSTM的輸出。對第i的LSTM,輸入

(h_{i-1},f(x_{i-1}),v_i)

,輸出

(h_{i},f(x_{i}))

LOSS:

2018年時序行為檢測綜述(一)

實驗結果

THUMOS14 上的mAP@0。5 為 30。8%

[3] BSN: Boundary Sensitive Network for Temporal Action Proposal Generation (2018ECCV)

簡介

:本文主要解決的是proposal的生成問題。主要採用的是bottom-up的方法,即分別生成starting和ending的機率序列,然後基於這個機率序列生成proposals,最後評估每個proposal的分數,如下圖所示:

2018年時序行為檢測綜述(一)

Visual Encoding的過程採用的是TSN的方法。

Boundary-Sensitive Network:

由三個部分組成:Temporal evaluation module,Proposal generation module,proposal evaluation module。

在Temporal evaluation module,用三層卷積網路生成每個時序位置的開始,結束和動作的機率。在Proposal generation module,生成候選的proposal,並且構造相應的proposal-level feature。對於構造候選proposal的方法:1。高於0。9的閾值;2。在某個位置高於前面和後面的機率;如下圖所示:

2018年時序行為檢測綜述(一)

對於每個構造的候選proposal,定義三個區域,分別為中間區域

[t_s.t_e]

,開始區域

[t_s-d/5,t_s+d/5]

和結束區域

[t_e-d/5,t_e+d/5]

。透過線性差值取樣的方式獲得Boundary-Sensitive Proposal (BSP) feature,如下圖所示:

2018年時序行為檢測綜述(一)

最後,在Proposal evaluation module對每個候選的proposal進行評估

實驗結果

THUMOS14 上的mAP@0。5 為 36。9%

[4] CTAP: Complementary Temporal Action Proposal Generation (2018ECCV)

簡介

:本文的思路比較明確,考慮到actionness score在某些分數偏低的時候會漏檢proposal,於是融合了sliding window,當

p_t(a_k)

較低的時候表明為漏檢的proposal:

2018年時序行為檢測綜述(一)

實驗結果

THUMOS14 上的mAP@0。5 為 29。9%

[5] Online Detection of Action Start in Untrimmed,Streaming Videos (2018ECCV)

簡介

:這篇文章並不是時序行為檢測的,但比較有意思就列出來了。本文提出了一個新的任務:Online Detection of Action Start (ODAS),即行為開始時間的檢測。如下所示:

2018年時序行為檢測綜述(一)

作者認為ODAS主要有三個挑戰:1)Action Start和背景很相似; 2)start window會摻雜背景和行為的資訊; 3)每個action實體只有很少的start window訓練樣本。

2018年時序行為檢測綜述(一)

為了解決這些問題提出了三個方法:

Adaptively Sample the Training Data:

在訓練的過程中,儘可能多的自適應取樣start windows。

Model the Temporal Consistency:

考慮到following-up windows和start windows有很大的相似度,所以透過分別提取兩個window的特徵,比加入

l_2

similarity。這樣做也能很好地區分start windows和background。

Generate Hard Negative Samples via GAN:

本文提出Hard negatives,即在特徵空間與start windows僅有一點不同。為了區分這兩個,作者用GAN生成hard negatives,並於之前的一起訓練。具體網路結構如下:

2018年時序行為檢測綜述(一)