論文速讀-Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

有監督學習模型預測結果中，得分較高的類別之間是視覺相似的圖，因此本文假設每一個樣本獨立成一個類別，希望透過無監督學習得到一個好的instance level representation

本文提出的無監督representation learning包括兩個關鍵模組

Non-parameter Softmax

Parameter Softmax

$P(i|v) = \frac{\exp(w^T_iv)}{\sum^n_{j=1}\exp(w^T_jv)}$

中引數w是對整個類別的描述，不利於instance level特徵的學習，所以本文用

替代

，其中v是單個影象對應的128D特徵。因為一個樣本對應一個類別，所以當n達到百萬級別時，Non-Parameter Softmax

$P(i|v) = \frac{\exp(v^T_iv)}{\sum^n_{j=1}\exp(v^T_jv)}$

分母部分計算量很大。借鑑NLP中方法，本文采用Noise-Contrastive Estimation（NCE）做近似計算。non-parameter softmax分母部門可以拆解成兩個部分：

$\exp(v^T_{same}v) 和 \sum{\exp(v^T_{different}v)}$

的和，其中

$v_{same}$

是和v同一類別對應的特徵，

$v_{different}$

是和v不同的類別對應的特徵。第二部分可以看作噪聲，NCE假設噪聲符合均勻分母，那麼可以透過按照均勻分佈抽取m個噪聲訊號，用m個噪聲訊號的均值近似所有噪聲訊號的均值，最後均值乘以噪聲個數n就得到

$\sum{\exp(v^T_{different}v)}$

的近似值，如此NCE把計算量降低到O（m）

文中實驗證明m=4096時取得和標準Non-Parameter Softmax取得相似結果。

Memory Bank

Memory儲存了資料集中所有樣本的128D特徵，第i輪訓練時，bank中儲存的時i-1輪中每個樣本對應的特徵。因為特徵維度只有128，所以600MB的空間即可儲存百萬張圖片的特徵。bank中的值用隨機數初始化，在訓練中緩慢變化。後續的MOCO也構造了一個Bank，但是那裡是透過一個EMA模型來實現，不要儲存樣本特徵，而是動態生成。因為每一類只有一個樣本，文中在loss中增加一項提高訓練穩定性，最終整個演算法的loss

$J_{NCE}(\theta) = -E[\log h(i,v_i^{t-1}) - \lambda ||v_i^t - v_i^{t-1}||_2^2] - mE[\log (1 - h(i,v^{(t-1)}))]$

其中i是樣本索引，也就是類別id，t是訓練中的迭代次數，

是當前類別i對應的noise樣本對應的特徵

實驗證明本文方法和當時的SOTA指標相當

論文速讀-Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

怎樣才能讓自己的qq說說贊變多

王者榮耀露娜適合什麼打法

隨便看看

孜然香酥餅正宗做法？

消防泵房地面放置標準？

澤連斯基是烏克蘭的福星還是災難？

飄窗簾高度的正確尺寸？

論文速讀-Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination

怎樣才能讓自己的qq說說贊變多

王者榮耀露娜適合什麼打法

猜你喜歡

高鐵減速聲音大嗎？

為什麼雨聲是白噪音呢？

論文筆記：Matching Networks for One Shot Learning

隨便看看

孜然香酥餅正宗做法？

消防泵房地面放置標準？

澤連斯基是烏克蘭的福星還是災難？

飄窗簾高度的正確尺寸？