ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

導語

本文提出一種積分迴歸的方法用於人體姿勢估計任務,該途徑結合了基於熱度圖的方法和迴歸方法的優點,可以方便地應用於並改進任何基於熱度圖的模型。本文透過綜合性實驗全面驗證了該方法的有效性,並表明在2D和3D的人體姿勢估計資料集MPII、COCO、Human3。6M中,本方法都取得當前最好的結果。該論文據悉已被計算機視覺頂會 ECCV 2018 接收。下面是對這篇論文的解讀。

論文標題:Integral Human Pose Regression

論文地址:

https://

arxiv。org/pdf/1711。0822

9。pdf

作者:Xiao Sun, Bin Xiao, Fangyin Wei, Shuang Liang, Yichen Wei(孫驍,肖斌,尉方音,梁爽,危夷晨)

1.人體姿勢估計的兩類方法

人體姿勢估計主要分為

基於檢測(detection-based)

的方法和

基於迴歸(regression-based)

的方法:

基於檢測的方法是基於熱度圖的,對每個關節都生成所有位置的似然熱度圖,選擇機率最大的位置作為該關節的位置。這種方法的缺點是:(1)取機率最大值的操作是

不可微分的

,所以無法使用端到端的訓練方法;(2)由於深度神經網路的降取樣操作,熱度圖的

解析度遠低於輸入圖片

的解析度,這將導致不可逆的量化誤差,關節位置的精度會因此受到限制。而使用更高解析度的熱度圖,會產生更多的記憶體和計算開銷。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

另一種觀點是把姿勢估計看作一個迴歸問題,它的優點是可以端到端地學習,併產生連續的輸出。然而,

基於迴歸的方法的實際效果仍不如基於檢測的方法。

2.積分姿勢迴歸

本文的工作是結合了熱度圖的表示和關節迴歸兩種方法,提出了積分迴歸(integral regression)的方法:將熱度圖中“取最大值”的操作(即選擇熱度圖中機率最大的關節位置)

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

換成“取期望”的操作(即估計的結果是熱度圖中所有位置的積分)

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

關節的位置透過熱度圖中所有位置的基於機率(歸一化後)的積分來估計。這種方法稱為積分姿勢迴歸,它的操作是可微分的,所以能夠端到端地訓練。

積分迴歸享有熱度圖表示和迴歸兩種方法的優點,同時避免了它們的缺點。

2.1 2D和3D資料的混合訓練

3D姿勢估計的一個嚴重問題是缺乏大量的可訓練資料,結合2D資料和3D資料一起訓練是一個努力的方向。由於積分操作的可微分性,積分迴歸方法可以自然地採用這種混合訓練方式。

本文把上述的積分操作分解成兩個步驟:(1)分別獨立地生成x、y、z上的一維熱度圖;(2)在一維熱度圖上積分產生相應的x、y、z的一維關節座標。因為x、y、z被分解了,所以可以直接地混合使用2D和3D的訓練資料。實驗表明該方法可以極大地提高3D姿勢估計的精度。

2.2 實驗方法學

積分迴歸方法是免參數的,只是將熱度圖的表示轉換成關節的位置,不影響其他演算法的設計和選擇。所以,它可以和其他的演算法設計——

不同的任務、熱度圖和關節的損失函式、網路結構、圖片和熱度圖的解析度

——結合起來。下圖是人體姿勢估計方法的流程和實驗中可以選擇的設定。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

任務:

2D和3D的姿勢估計任務、混合的2D和3D資料同時訓練

網路結構:

主要分為主幹網路(backbone network)和頭網路(head network)。主幹網路一般是卷積網路,目的是從圖片中抽取特徵;而頭網路從之前的特徵中估計目標輸出(熱度圖或關節)。

熱度圖的損失函式:

均方誤差、mxm的交叉熵損失函式、二值分佈的交叉熵損失函式。

熱度圖和關節損失的結合:

在關節座標的損失函式上,可以選擇L1距離或L2距離等。關節的損失函式中可以包括或不包括熱度圖的損失,積分迴歸的方法中,包括或不包括都有不錯的結果。

圖片和熱度圖的解析度:

通常更高的位置精度需要圖片和熱度圖有更高的解析度。積分迴歸方法對圖片和熱度圖的解析度的魯棒性更好。

3.實驗方法與資料

3.1 模型與訓練

在以下3個數據集上,使用的模型和訓練方法是相似的。提取特徵的主幹網路採用了ResNet或HourGlass模型。計算輸出的頭網路是全卷積的,它首先使用反捲積在特徵圖上進行上取樣(upsampling)到需要的解析度,輸出通道的個數是固定的256;然後,用1x1的卷積層產生K個熱度圖。同樣,我們也把最廣泛的使用全連線層計算關節位置的輸出方法作為基本對比。

同樣,本文采用了簡單的多階段(multi-stage)體系結構,使用了Adam的最佳化方法,歸一化輸入圖片為256x256,採用隨機的平移、縮放、旋轉和翻轉來擴大資料集等。

3.2 MPII資料集

MPII是單人2D姿勢估計的資料集,圖片是從YouTube影片中收集的,覆蓋了人類的日常活動,包括複雜的姿勢和圖片外觀。一共大約2萬5千張圖片。在評估中,使用正確估計的關鍵點的比例(Percentage of Correct Keypoints, PCK)作為度量。一個關鍵點的估計值同真實位置的距離小於頭部長度的某個比例a時,被認為是正確估計的,該評估方法稱為PCK@a。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

傳送門:

http://

human-pose。mpi-inf。mpg。de

/

積分迴歸的影響

表1是實驗的對比結果,其中,I*、I1、I2、I3是積分迴歸的方法,H1,H2,H3是基於熱度圖的方法,R1是直接回歸的方法。這樣的結果表明了熱度圖和關節的聯合訓練是有效的。尤其,I*的表現也不錯,僅次於I1、I2、I3(I*指的是隻使用了關節的損失沒有包括熱度圖的損失),

這是由於I*用於迴歸的特徵更好,優於直接回歸,因為I* 和直接回歸方法R1的監督訊號和網路結構都是相同的。

我們可以得出兩個結論:(1)使用潛在的熱度圖特徵的積分迴歸是有效的(I*>H, I*>R),即使在不使用熱度圖監督的情形下;(2)熱度圖和關節位置預測的聯合訓練結合了兩種正規化的優點,表現最好(I>H,R,I*)。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

表1。 MPII資料集上,各種方法的對比結果。其中,I*、I1、I2、I3是積分迴歸的方法,H1,H2,H3是基於熱度圖的方法,R1是直接回歸的方法。

解析度的影響

如表2所示,比較了在兩種方法(H1/I1),兩種輸入圖->特徵圖的解析度和兩種熱度圖尺寸(使用3或2個上取樣層)情形下,效能(mAP@0。5, map@0。1, AUC)、計算(FLOPs)和網路引數個數的結果。毫無疑問,使用更大的圖片尺寸和熱度圖尺寸可以獲得更好的精度。然而,積分迴歸方法(I1)相比於基於熱度圖的方法(H1),更少受到解析度的影響。所以,當計算能力有限、需要小解析度時,積分迴歸方法更加適合。

所以,我們得出結論:

積分迴歸方法能夠極大地減輕基於熱度圖方法帶來的量化誤差或需要大解析度的問題。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

表2。 在兩種方法(H1/I1),兩種輸入圖-&;amp;gt;特徵圖的解析度和兩種熱度圖尺寸(使用3或2個上取樣層)情形下,效能(mAP@0。5, map@0。1, AUC)、計算(FLOPs)和網路引數總數的結果。

網路容量的影響

表3展示了在兩種方法下使用不同的主幹網路的結果。使用更大容量的網路,所有方法的效能都有提高,但是積分迴歸方法的效能仍然高於基於熱度圖的方法。

雖然使用大規模的網路提高了效能,但是同時帶來了更大的計算量。積分迴歸方法I1使用ResNet-18已經實現了相當於使用ResNet-101的H1的效能。所以在實際中,需要使用小規模網路時,積分迴歸是個更好的選擇。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

表3。在兩種方法下使用不同的主幹網路的對比結果

多階段的影響

表4展示了多階段實現在使用與不使用積分迴歸方法時的結果。我們從中得出兩個結論:(1)積分迴歸方法可以和多階段的結構有效結合,效能會隨著階段數的增加而提高;(2)在所有階段數下,積分迴歸的方法都超過基於熱度圖的方法。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

表4。 多階段實現中,使用與不使用積分迴歸方法時的結果

從以上的研究中,我們得出結論:

積分迴歸的有效性來源於它的特徵表示

。因為該方法在不同的熱度圖損失(H1、H2、H3)、不同訓練方法(聯合或不聯合)、不同的解析度和不同的網路結構(深度或多階段)下,都有好的表現。

3.3 COCO資料集

COCO關鍵點的挑戰是需要在不可控的環境下,進行多人檢測和姿勢估計。訓練集、驗證集和測試集一共包含標記了關鍵點的20萬張圖片和25萬個人。評估方法是定義了物體關鍵點相似度(object keypoint similarity, OKS),並使用了在10個OKS閾值上的平均精度作為度量。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

傳送門:

http://

cocodataset。org/#

download

本文使用了兩階段的自上而下的正規化,即先檢測行人,後估計姿勢。

在行人檢測上,使用帶有可變形卷積的Faster-RCNN,並使用Xception作為主幹網路。姿勢估計時,對比了基於熱度圖的方法(H1)和積分迴歸的方法(I1),所有的設定和MPII中幾乎相同。

實驗的結果如表5所示,積分迴歸的方法比基於熱度圖的方法超出了1。5個百分點,是當前的state-of-the-art。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

表5。 COCO資料集的實驗結果

3.4 Human3.6M資料集

Human3。6M是目前最大的3D人體姿勢估計資料集。資料是在可控的環境中採集的,包括360萬幀的影片,從4個相機中捕捉到11個人(5名女性,6名男性)的15種活動。採集者和背景的影象都是簡單的。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

傳送門:

http://

vision。imar。ro/human3。6

m/deion。php

本文使用了兩種訓練策略:(1)只使用了Human3.6M的3D資料作為訓練集;(2)同時使用了Human3.6M的3D資料和MPII的2D資料作為訓練集。

實驗的結果表明:(1)在兩種策略下,積分迴歸都可以極大地提高精度;(2)混合使用了2D和3D訓練資料後,結果都得到提高,如表6所示。多階段的結構、網路規模和解析度對結果的影響與之前的結論相同。

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

表6。 在兩種策略下,積分迴歸方法(I*、I1、I2)和相應基本方法(R1、H1、H2)的結果

作者:丁曉靜

審校:尉方音

免費直播:計算機視覺入門課

集智AI學園特邀論文作者之一

尉方音( Fangyin Wei)

開設一場2個小時的線上公開課,介紹計算機視覺中的深度學習技術。

尉方音畢業於北京大學資訊科學技術學院,即將赴普林斯頓大學攻讀計算機科學博士學位。她的研究興趣包括計算機視覺和深度學習等,曾在微軟亞洲研究院和商湯科技相關研發團隊實習。

關於這位美女+學霸講師的更多詳細介紹,請點選連結檢視:她不知道楊超越、101,但她喜歡寫程式碼

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

掃碼入群看直播

獨家線上直播

2018北京師範大學複雜系統夏令營名師講座

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

手機PC端客戶直播請點選:

http://

campus。swarma。org/gpac=

380

集智AI學園將對夏令營講座獨家全程直播!

http://

qr23。cn/E6Zeos

(二維碼自動識別)

集智QQ群|292641157

商務合作及投稿轉載|[email protected]

◆ ◆ ◆

搜尋公眾號:集智俱樂部

加入“沒有圍牆的研究所”

ECCV2018論文解讀:用迴歸方法判斷熱度圖中的人體姿態

讓蘋果砸得更猛烈些吧!

讓蘋果砸得更猛烈些吧!