Ranking loss系列（一）Contrastive Loss

參考

Raúl Gómez

，本系列將所有以距離度量作為學習目標的損失函式歸為Ranking loss

孿生神經網路（Siamese Network）與Contrastive Loss

Siamese Network，簡單來說就是將兩個相同或相似的子網路結合在一起，每個子網路接收一個輸入，輸出相應的特徵向量。子網路完全相同時，可以只用一個網路來實現，輸入一個batch然後手動構造pair，稱之為Siamese Network；子網路不同的話，就要單獨實現每一個網路，稱之為pseudo-Siamese Network。

Siamese的作用是比較輸入的相似性。例如，在LeCun的論文

Signature Verification using a ‘Siamese’ Time Delay Neural Network

中，將兩個簽名分別輸入網路，得到兩個特徵向量，然後計算特徵向量間的餘弦距離，從而衡量簽名間的相似程度。

那麼如何訓練網路，使得同類樣本的特徵向量距離小，異類樣本的特徵向量距離大呢？

答案是構造genuine pair和forgery pair。對於同類樣本組成的genuine pair，特徵向量的距離target是cosine=1。0；對於異類樣本組成的forgery pair，距離target是cosine=-1。0。以上都是Signature Verification論文中的做法，實際上，距離度量也可以使用歐式距離等方式。

Contrastive Loss

除了對target進行擬合，孿生網路更一般地是採用Contrastive Loss處理成對的資料。

比較經典的Contrastive Loss形式來自於LeCun的文章：

Dimensionality Reduction by Learning an Invariant Mapping

$L\left(W, Y, \vec{X}_{1}, \vec{X}_{2}\right)=(1-Y) \frac{1}{2}\left(D_{W}\right)^{2}+(Y) \frac{1}{2}\left\{\max \left(0, m-D_{W}\right)\right\}^{2}$