【Deep Clustering】Contrastive Clustering

原文

Abstract

目前很多方法都是離線演算法，即使用整個資料集進行聚類，因此很難應用到大規模資料集線上學習。本文提出了一個一階段端到端線上聚類方法（one-stage and end-to-end online clustering method）被稱為Contrastive Clustering（CC），其顯式的展現了例項層次（instance-level）和叢集層次（cluster-level）的對比學習。

具體來說，給定資料集，正/負樣本pair透過資料增強進行對比然後對映到特徵空間，其中行空間和列空間分別進行例項層次和叢集層次的對比學習，且如上圖所示，特徵矩陣的每行可以看做例項的softlabel（每個cluster分配的機率，即該例項屬於每個簇的機率），每列為聚類表示（每個cluster在例項上的分佈，即該簇包含哪些例項）

Method

如上圖所示，模型包括三個主要部分：1。 pair construction backbone（PCB） 2。 instance-level contrastive head （ICH） 3。 cluster-level contrastive head （CCH）。簡單來說，PCB透過data pair進行對比並從增強樣本中提取特徵，之後ICH和CCH分別從行和列分別進行對比學習

PCB

給定一個樣本

，兩個資料增強方式

，則增強後樣本

。本任務中可選擇的增強方式有：ResizedCrop（隨機裁剪圖片並resize到原圖大小），ColorJitter（改變亮度，對比度等）， Grayscale（轉為灰度圖）， HorizontalFlip（水平翻轉），GaussianBlur（高斯模糊）。像SimCLR一樣，每個增強方式都會分配一個機率使用

本文使用ResNet作為backbone提取增強資料的特徵

ICH

本文使用兩個增強樣本組成正樣本對，其餘為負樣本對

形式化描述，給定一個mini-batch大小為

，每個樣本有兩個不同增強樣本因此得到

個樣本集

$\{x_1^a,...,x_N^a,x_1^b,...,x_N^b\}$

，則對於

共能組成1對正樣本對和2N-2個負樣本對

作者並沒有直接使用特徵計算對比學習loss，而是構建兩層非線性MLP

$g_I(\cdot)$

將特徵矩陣對映到子空間

，則關於

的loss可以定義為

$l_i^a=-\log\frac{\exp(s(z_i^a,z_i^b)/\tau_I)}{\sum_{j=1}^N[\exp(s(z_i^a,z_j^a)/\tau_I)+\exp(s(z_i^a,z_j^b)/\tau_I)]}\\$

其中

$\tau_I$

是例項層次的temperature變數，

$s(z_i^{k_1},z_j^{k_2})$

為cos距離

$s(z_i^{k_1},z_j^{k_2})=\frac{(z_i^{k_1})(z_j^{k_2})^T}{||z_i^{k_1}||||z_j^{k_2}||}\\$

則所有樣本的針對所有增強的例項層次總loss如下

$\mathcal{L}_{ins}=\frac{1}{2N}\sum_{i=1}^N(l_i^a+l_i^b)\\$

CCH

當資料樣本被對映到與cluster數量相同的空間時，資料特徵的每一維可以看作該樣本屬於該cluster的機率

形式化描述，定義

$Y^a\in\mathcal{R}^{N\times M}$

（

為batchsize，

為cluster數量）為一個mini-batch資料經歷

資料增強的CCH的輸出（

為

資料增強的），

$Y^a_{n,m}$

表示樣本

屬於cluster

的機率。由於一個樣本只屬於一個cluster，因此

的每一行趨向於one-hot，每一列代表每個cluster的分配結果，即每一列都需要儘量不同

類似ICH，構建兩層非線性MLP

$g_C(\cdot)$

將特徵矩陣對映到

維空間

，則

表示

的第

行（即

增強下

的soft label）。定義

$\hat{y}_i^a$

表示

的第

列（即

增強下cluster

的分配結果）

作者將

$\{\hat{y}_i^a,\hat{y}_i^b\}$

看作正簇對（

$\hat{y}_i^b$

表示

增強下cluster

的分配結果），剩餘構成2M-2個負簇對，則關於

的loss可以定義為

$\hat{l}_i^a=-\log\frac{\exp(s(\hat{y}_i^a,\hat{y}_i^b)/\tau_C)}{\sum_{j=1}^M[\exp(s(\hat{y}_i^a,\hat{y}_j^a)/\tau_C)+\exp(s(\hat{y}_i^a,\hat{y}_j^b)/\tau_C)]}\\$