論文速讀-Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

有監督學習模型預測結果中,得分較高的類別之間是視覺相似的圖,因此本文假設每一個樣本獨立成一個類別,希望透過無監督學習得到一個好的instance level representation

論文速讀-Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

本文提出的無監督representation learning包括兩個關鍵模組

Non-parameter Softmax

Parameter Softmax

 P(i|v) = \frac{\exp(w^T_iv)}{\sum^n_{j=1}\exp(w^T_jv)}

中引數w是對整個類別的描述,不利於instance level特徵的學習,所以本文用

v^T_iv

替代

w^T_iv

,其中v是單個影象對應的128D特徵。 因為一個樣本對應一個類別,所以當n達到百萬級別時,Non-Parameter Softmax

P(i|v) = \frac{\exp(v^T_iv)}{\sum^n_{j=1}\exp(v^T_jv)}

分母部分計算量很大。借鑑NLP中方法,本文采用Noise-Contrastive Estimation(NCE)做近似計算。non-parameter softmax分母部門可以拆解成兩個部分:

\exp(v^T_{same}v) 和 \sum{\exp(v^T_{different}v)}

的和,其中

v_{same}

是和v同一類別對應的特徵,

v_{different}

是和v不同的類別對應的特徵。第二部分可以看作噪聲,NCE假設噪聲符合均勻分母,那麼可以透過按照均勻分佈抽取m個噪聲訊號,用m個噪聲訊號的均值近似所有噪聲訊號的均值,最後均值乘以噪聲個數n就得到

\sum{\exp(v^T_{different}v)}

的近似值,如此NCE把計算量降低到O(m)

論文速讀-Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

文中實驗證明m=4096時取得和標準Non-Parameter Softmax取得相似結果。

Memory Bank

Memory儲存了資料集中所有樣本的128D特徵,第i輪訓練時,bank中儲存的時i-1輪中每個樣本對應的特徵。因為特徵維度只有128,所以600MB的空間即可儲存百萬張圖片的特徵。bank中的值用隨機數初始化,在訓練中緩慢變化。後續的MOCO也構造了一個Bank,但是那裡是透過一個EMA模型來實現,不要儲存樣本特徵,而是動態生成。 因為每一類只有一個樣本,文中在loss中增加一項提高訓練穩定性,最終整個演算法的loss

J_{NCE}(\theta) = -E[\log h(i,v_i^{t-1}) - \lambda ||v_i^t - v_i^{t-1}||_2^2] - mE[\log (1 - h(i,v^{(t-1)}))]

其中i是樣本索引,也就是類別id,t是訓練中的迭代次數,

v^·

是當前類別i對應的noise樣本對應的特徵

論文速讀-Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

論文速讀-Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

實驗證明本文方法和當時的SOTA指標相當