CVPR 2021論文解讀 | 長尾分佈問題解決新思路

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

收錄會議:CVPR 2021 論文單位:曠視研究院

論文連結:

https://

arxiv。org/abs/2103。1637

0

論文程式碼:

https://

github。com/Megvii-BaseD

etection/DisAlign

一作:張松陽

上海科技大學四年級博士研究生,研究方向為 Few-shot Learning, Long-tail Recognition, Graph Neural Network 等。

在 CVPR, ICCV, ECCV, ICML, AAAI, IJCAI, InterSpeech 等會議發表多篇學術論文。曾在圖森未來,騰訊優圖實習,現為曠視研究院基礎檢測組實習生。

解讀人:杜海琳

2019年在北京理工大學資訊與電子學院取得學士學位,目前在北京理工大學雷達所空天遙感實驗室讀碩士。研究方向為基於語義分割方法的變化檢測演算法研究。

1. 摘要

儘管深度神經網路最近取得了成功,但在視覺識別任務中如何有效地對長尾類別分佈的資料進行建模仍然具有挑戰性。

針對長尾分佈問題,曠視研究院提出了一種用於長尾視覺識別的統一分佈對齊策略。具體來說,透過開發了一種自適應校準函式來調整各個資料點的分類機率,接著引入了一種通用的 two-stage 重加權方法來引入平衡類別先驗資訊,這個方法為視覺識別任務中的不同場景提供了靈活通用的方法。在影象分類、語義分割、目標檢測和例項分割的實驗中都驗證了該方法的有效性。

2. 介紹

視覺識別任務中真實樣本的類別分佈通常不是均勻分佈,符合長尾分佈,即頭部類別具有較多樣本例項,尾部類別具有較少樣本。長尾分佈會導致深度學習模型將在很大程度上由少數頭部類主導,在尾部的少樣本類別上它的效能則會大大降低。

現有的解決方法可以分為 one-stage imbalance learning 和 two-stage imbalance learning 兩大類:

1. One-stage imbalance learning

一種策略是利用重新平衡的思想,如重取樣、類別感知取樣、重複因子抽樣等,透過增加少數樣本的取樣率或減少高頻類別的取樣率來平衡各類別在特徵表達中的貢獻,但這種方法有造成過擬合的風險,甚至會扭曲原始資料的分佈;另一種策略是在訓練中重新加權損失函式;其他工作透過轉移來自頭部類別的知識來增強尾部類別的表示。

2. Two-stage imbalance learning

由於圖片特徵的分佈和類別標註的分佈本質上是不耦合的,因此許多方法會使用解耦表徵學習與分類器學習的方法解決資料分佈不均衡問題,在視覺識別任務的特徵提取過程中不再用類別的分佈去重取樣,而是在後續分類器學習的時候進行 class-balanced sampling learning。這個方法規避了 one-stage imbalance learning 的弊端,但對分類器決策邊界的調整有較高要求,且需要較為繁瑣的超引數調整。

3. 思路

首先,研究人員對兩階段學習策略進行了消融分析。具體來說,研究者使用分佈平衡的資料集來重新訓練分類器,同時保持第一階段的表示不變,從而估計出“理想”的分類精度,對比發現理想效能與現有結果存在很大差距,這表明長尾資料處理過程的第一階段學習已經提供了很好的表徵,差距主要由於第二階段決策邊界的偏差,證實了長尾分佈資料處理的第二階段,即分類器的學習仍有很大的改進空間。

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

圖一(左) 圖二(右)

圖1顯示出分類邊界設定對各類視覺識別任務精度的限制;圖2左側圖表表明第一階段產生了很好的特徵表示,並且基於例項的取樣獲得了更好的結果,右側圖表展示出現有方法與上限之間仍有很大的效能差距,特徵空間中的決策邊界很有可能是現有長尾方法的效能瓶頸。

因此,作者著重改進特徵表徵後分類器的第二階段訓練,開發了基於 two-stage 方法的統一分佈對齊策略,透過將分類器的輸出與有利於平衡預測的類別分佈進行匹配實現對分類器輸出的校正。這種對齊策略利用類別先驗和輸入資料學習類別的決策邊界,解決了繁瑣的超引數調整問題,能更靈活地應用於各類視覺識別任務。

該分佈對齊模組由兩部分組成,第一部分引入了自適應配準函式,為分類配備與輸入有關的,可學習的幅度和餘量,使每個資料點都能依據相關的置信度得分實現靈活的分佈對齊;第二部分透過對參考類別分佈重加權,顯式地合併了平衡類別先驗。整個過程為不同視覺任務下標籤不平衡的場景提供了一個統一的解決方案。

4. 具體實現細節

我們的目標是從不平衡訓練集

D_{tr}

中學習模型引數,讓模型 M 在

D_{eval}

測試集中實現關於某些平衡指標(如平均準確率)的最優效能。

在 two-stage 框架中,深度網路模型通常含有兩個部分:一個特徵提取網路 feature extractor network

f(·)

和一個分類頭 classifier head

h(·)

。特徵提取器f提取輸入表徵 x ,並將其輸入至分類頭 h 中計算出各類機率 z ,如式(1)所示,最終輸入物件的標籤可透過

y=argmax(z)

得到(類似語義分割中最後一步的標籤預測,在特徵維中具有最大機率的標籤即為預測類別)。在文章中,分類頭可以被例項化為線性分類器或餘弦相似度分類器,如式(2)(3)所示。

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

在實驗證實“解決第二階段決策邊界設定問題將進一步改善長尾分類的 two-stage 學習”之後,研究者針對所有視覺識別任務設計了一種基於 two-stage 學習的方案,包括聯合學習( joint learning stage )和分佈配準階段( distribution calibration stage )。

1)在第一階段,在不平衡資料集

D_{tr}

上使用例項平衡 ( instance-balanced ) 取樣策略實現特徵提取器

f(·)

和原始分類頭

h_0(·)

的聯合學習。此時由於不平衡的資料分佈,學習到的原始

h_0(·)

是嚴重有偏的。

2)在第二階段,我們在

f(·)

引數固定不變的情況下關注分類頭以調整決策邊界,引入了自適應配準函式 ( adaptive calibration function ) 和廣義重加權 ( generalized re-weight ) 策略來配準各類機率。

自適應配準函式

不同於以往的工作,該模組設計不需要從頭開始對分類器重新訓練,且含有更少的需調節引數。此外,該模組還引入了一個融合機制來根據輸入特徵靈活控制配準的程度。

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

由式(1)可知

z^0

為分類器

h_0(·)

輸出的各類機率,我們首先引入線性變換來調整各類機率,如式(4)所示,其中

\alpha_{j}

\beta_j

為第 j 類的配準引數。接著我們使用一個置信度得分函式

\sigma(x)

來自適應地組合原始分類機率和調整後的分類機率,如式(5)(6)所示,置信度得分

\sigma(x)

通常由線性層後接非線性啟用函式構成,負責控制針對特定輸入 x 進行配準的程度我們將式(6)中的

(1+ \sigma(x)\alpha_j)

稱為 learnable magnitude ,將

\sigma(x)\beta_j

稱為 learnable margin。對於已配準的類別機率,通常用 Softmax 函式輸出它的預測分佈

p_m(y|x)

,如式(7)所示。

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

在經過線性變換,置信度加權等步驟後,我們獲得了初步配準後的預測分佈

p_m(y|x)

,接下來,我們使用 KL 散度監督使預測分佈

p_m(y|x)

儘量接近參考分佈 ,如式(8)(9)所示,其中參考分佈

p_r(y|x)

是利於平衡類別預測的分佈。

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

式(10)(11)給出了參考分佈的建立過程,其中

\delta_c(y_i)

類似訊號處理中的衝激函式,僅當

y_i=c

時,

\delta_c(y_i)=c

;參考權重

\omega_c

由訓練集中的較為均衡的類別機率 r 確定。透過這一系列的重新加權,有關類別的先驗資訊被引入到預測分佈中。

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

圖3展示了不同的尺度因子

\rho

下的類別分佈加權係數,其中類別頻率由圖中的灰色部分表示,當

\rho=0

時,曲線代表基於例項的重加權平衡方法;當

\rho=1

時,曲線代表基於類別的重加權平衡方法。表2對比了文章提出方法與已有方法的結構差異。

5. 實驗結果

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

在分類任務中,圖4透過多組消融實驗展示了 DisAlign 演算法在 ImageNet-LT 資料集使用不同骨幹網路的效能優勢,由此可知 DisAlign 可以大大提升骨幹網的效能;表5展示了 DisAlign 的成分分析( component analysis )實驗結果,將完整模型與幾個區域性模組進行比較,發現 generalized reweight strategy, learnable magnitude 以及 learnable margin 都對長尾問題下的視覺任務帶來了顯著提升,證明了各個模組的有效性。

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

在語義分割任務中,表6展示了 DisAlign 在 ADE-20K 資料集上取得的優越效能結果,平均 IoU 和平均準確率均獲得提升,尤其是針對 Body 和 Tail 部分的類別,分割效能得到顯著改善。

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

同樣地,在目標檢測和例項分割任務中,表8顯示出 DisAlign 方法的有效性和優越性。

CVPR 2021論文解讀 | 長尾分佈問題解決新思路

圖6展示了分佈對齊模組為各類機率配備可學習的幅度與餘量的訓練結果,這種自適應校準策略能夠對參考類別進行重加權,利用平衡類別的先驗資訊實現分佈均衡。

6. 總結

總的來說,DisAlign 方法規避了單階段平衡方法容易過擬合的缺點,同時改進了雙階段平衡方法決策邊界設定困難,繁瑣超參調整的缺陷。提出了一種針對大型長尾資料視覺識別任務的通用模型。本質上,該方法是透過引入一個參考分佈 reference distribution

p_r(y|x)

來監督分類器輸出的預測類別分佈

p_m(y|x)

,利用有關類別的先驗資訊解決長尾分佈問題。基於這個思想,巧妙地設計了自適應配準函式 adaptive calibration function,透過線性變化和非線性啟用函式調整分類器的輸出

z

,在多個視覺任務取得了顯著的效能提升。