20210916 第49篇

arxiv。org/pdf/2109。07049。pdf

作者:Simiao Zuo, Yue Yu, Chen Liang, Haoming Jiang, Siawpeng Er, Chao Zhang, Tuo Zhao, and Hongyuan Zha

Affiliations: Georgia Institute of Technology, Amazon, The Chinese University of Hong Kong

本文屬於 self-training 自監督學習方向,該方向的一系列演算法在半監督學習中起到了很重要的作用,有效地緩解了許多場景下,labeled data 過少的問題。在自監督學習中,絕大多數演算法所採用的就是 teacher-student 框架,其中 teacher 提供 pseudo-label,而 student 負責模型。簡而言之,就是 labeled data 過少,我們就多新增一些 label,儘管新增的 label並不一定是完全正確的。然而與GAN類似的是,這樣的訓練方式十分不穩定,因為 teacher的一個小小的改動會引起 student 模型發生巨大的變化。為了解決這一問題,作者們認為應該用 Stackelberg game 的框架來處理該模型中 teacher 和 student的關係。畢竟,student 學習的是模型本身,而 teacher 控制的是學習的方向,因此應該套用 Stackelberg game 中的 leader-follower 框架,student 是其中的 leader。

因此在學習過程中,一方面我們在 labeled data 上需要最小化 classification loss

\min_{\theta}\mathcal L_{sup}(\theta)=\frac{1}{N}\sum_{i=1}^N l_{\sup}(f(x_i,\theta), y_i).

在 update parameter 的時候,teacher 模型是依賴於 student 模型的,兩者具備一種 exponential moving average 的關係:

\theta_t^T = \alpha\theta_{t-1}^{T}+(1-\alpha)\theta_t^S

即教師的模型是滯後於學生模型的,為了讓訓練的過程較為平滑。於是在作者們提出的 differentiable self-training 框架中,我們使用 Stackelberg game 中的設定:

\min_{\theta_t^S}\mathcal L(\theta_t^S) = \mathcal L_{sup}(\theta_t^S)+\frac{1}{N_u}\sum_{x_i\in\mathcal X_u}l_S(x_i, F(\theta_t^T(\theta_t^S)), \theta_t^S),

s.t. ~~F(\theta_t^T(\theta_t^S))=[\tilde{y}(\theta_t^T(\theta_t^S)), \omega(\theta_t^T(\theta_t^S))]

其中

\tilde{y}

是 pseudo-label,不是一個固定的label,而是一個 softmax 分佈,這樣我們的pseudo-label 就也是連續的了。

\left[\tilde{y}(\theta_t^T)\right]_j=\frac{\left[f(x,\theta_t^T(\theta_t^S))\right]^{1/\tau}/f_j}{\sum_k \left[f(x,\theta_t^T(\theta_t^S))\right]^{1/\tau}/f_k}

另外,

\omega

是sample weight,即每一個sample 應該施加不同的權重,這是按照pseudo-label的不確定性來決定的,不確定性 (entropy) 越強,權重就越低,否則學出來了也毫無意義。

\omega(\theta_t^T)=1-\frac{H(\tilde{y}(\theta_t^T))}{\log(C)}

最後 student 的 loss function

l_S

就是 Stackelberg game 中的 loss:

l_S(x_i, F, \theta_t^S)=\omega(\theta_t^T(\theta_t^S))KL\left(\tilde{y}(\theta_t^T(\theta_t^S))~||~f(x_i, \theta_t^S))\right)

即加權的 output label 與 pseudo label 的 classification loss,值得注意的是,student model完全清楚 teacher 下一步的 exponential moving 行為,並提前做了預判。