2018年時序行為檢測綜述（一）

2018年時序行為檢測綜述

［1］ Rethinking the Faster R-CNN Architecture for Temporal Action Localization（2018CVPR）

簡介：

谷歌的一篇文章，思路類似於Faster R-CNN，但基於影片主要有三個方面的改動：

Receptive Field Alignment：

因為時序行為的時間長短不一（有的幾秒，有的一分鐘），所以在進proposal generation的時候不能用相同的感受野。如下圖左所示：

那怎麼才能獲得野想要的感受野s呢，文章採用max-pooling和Dilated convolutions來使感受野達到與anchor一樣的大小：

Context Feature Extraction：

為了獲得前文和後文的資訊，必須擴大原來的感受野，因此本文在圖三的基礎上使用了雙倍的dilation rate，並且在初始的pooling上也使用2倍的kernel size，如下圖所示：

同樣在soi pooling的時候也融合了動作前文和後文的資訊：

Late Feature Fusion：

對RGB和光流的feature map透過兩個不同網路後進行fusion

結果：

THUMOS14 上的mAP@0。5 為 42。8%

［2］ One-shot Action Localization by Learning Sequence Matching Network（2018CVPR）

思路：

本文提出了一種基於Matching Network的one-shot方法應用於時序行為檢測，主要有三個子網路組成，具體結構如下：

不同類別的少量樣本和透過用sliding-window在未修剪的影片產生proposal分別經過Video encoder network獲得固定長度特徵。這些特徵有不同行為的proposal和樣本組成。在每個time step中，每對proposal和樣本透過similarity network產生correlation score，並用這些score合成一個correlation score矩陣。最後用labeling network基於該矩陣預測每proposal的類別。

Video encoder network：

將一個影片分成S個片段，每個片段用使用TSN編碼，最後用LSTM來產生最後的特徵。LSTM採用ranking loss來訓練。

Similarity network：

$\chi$

為訓練的樣本，每個訓練樣本在經過Video Encoder後獲得特徵表示，

表示

的編碼向量，FCE表達如下：

FCE採用的是雙向LSTM獲得

和前後的資訊。

最終透過上面的式子獲得proposal和樣本的相似度。

Labeling network：

表示樣本，

$\hat x_n$

表示proposal，透過連線

$cor_{i,\hat x_n}$

可以獲得correlation matrix，透過大小為

的視窗在correlation matrix上滑動來比較每個樣本的距離獲得proposal的probability，這樣做的好處可以考慮上下文的資訊。如果一個proposal和某個樣本的correlation很大，表明該proposal屬於該樣本，如果與所有樣本的correlation都很低，表示該proposal為背景。

訓練：

採用元學習的方法來訓練，損失函式如下：

Pretraining for Video Encoder&Similarity Net：

因為Video encoder 和 similarity network中有許多引數，因此對其進行預訓練。在訓練的時候僅使用trimmed的資料。在預訓練的時候採用rank loss

結果：

THUMOS14 上的mAP@0。5 為 13。6%（樣本為1）

［3］ Action Search： Spotting Actions in Videos and Its Application to Temporal Action Localization（2018ECCV）

簡介

：本文提出了一個新的任務：action search，即在一個影片序列中快速找到行為的位置，同時本文分別在AVA和THUMOS14 的基礎上提出了用於該任務的資料庫Human Searches。

思路：

本文的網路結構如下：

輸入一段影片片段

，

輸出一個時序位置的序列

。

在每一步，首先透過Visual Encoder提取

的特徵

，

為 LSTM的輸出。對第i的LSTM，輸入

$(h_{i-1},f(x_{i-1}),v_i)$

，輸出

$(h_{i},f(x_{i}))$

。

LOSS：

實驗結果

THUMOS14 上的mAP@0。5 為 30。8%

［3］ BSN： Boundary Sensitive Network for Temporal Action Proposal Generation （2018ECCV）

簡介

：本文主要解決的是proposal的生成問題。主要採用的是bottom-up的方法，即分別生成starting和ending的機率序列，然後基於這個機率序列生成proposals，最後評估每個proposal的分數，如下圖所示：

Visual Encoding的過程採用的是TSN的方法。

Boundary-Sensitive Network：

由三個部分組成：Temporal evaluation module，Proposal generation module，proposal evaluation module。

在Temporal evaluation module，用三層卷積網路生成每個時序位置的開始，結束和動作的機率。在Proposal generation module，生成候選的proposal，並且構造相應的proposal-level feature。對於構造候選proposal的方法：1。高於0。9的閾值；2。在某個位置高於前面和後面的機率；如下圖所示：