論文速讀-Unsupervised Feature Learning via Non-Parametric Instance-level Discrimination
有監督學習模型預測結果中,得分較高的類別之間是視覺相似的圖,因此本文假設每一個樣本獨立成一個類別,希望透過無監督學習得到一個好的instance level representation
本文提出的無監督representation learning包括兩個關鍵模組
Non-parameter Softmax
Parameter Softmax
中引數w是對整個類別的描述,不利於instance level特徵的學習,所以本文用
替代
,其中v是單個影象對應的128D特徵。 因為一個樣本對應一個類別,所以當n達到百萬級別時,Non-Parameter Softmax
分母部分計算量很大。借鑑NLP中方法,本文采用Noise-Contrastive Estimation(NCE)做近似計算。non-parameter softmax分母部門可以拆解成兩個部分:
的和,其中
是和v同一類別對應的特徵,
是和v不同的類別對應的特徵。第二部分可以看作噪聲,NCE假設噪聲符合均勻分母,那麼可以透過按照均勻分佈抽取m個噪聲訊號,用m個噪聲訊號的均值近似所有噪聲訊號的均值,最後均值乘以噪聲個數n就得到
的近似值,如此NCE把計算量降低到O(m)
文中實驗證明m=4096時取得和標準Non-Parameter Softmax取得相似結果。
Memory Bank
Memory儲存了資料集中所有樣本的128D特徵,第i輪訓練時,bank中儲存的時i-1輪中每個樣本對應的特徵。因為特徵維度只有128,所以600MB的空間即可儲存百萬張圖片的特徵。bank中的值用隨機數初始化,在訓練中緩慢變化。後續的MOCO也構造了一個Bank,但是那裡是透過一個EMA模型來實現,不要儲存樣本特徵,而是動態生成。 因為每一類只有一個樣本,文中在loss中增加一項提高訓練穩定性,最終整個演算法的loss
其中i是樣本索引,也就是類別id,t是訓練中的迭代次數,
是當前類別i對應的noise樣本對應的特徵
實驗證明本文方法和當時的SOTA指標相當