掃了一下nips2020 accepted paper,找到一些感興趣的,有一些還沒有把文章發出來,後面等內容出來後再補~

Self-supervised Co-training for Video Representation Learning

Is normalization indispensable for training deep neural network

ConvBERT: Improving BERT with Span-based Dynamic Convolution

bert 依賴global self-attention block,通常會耗費大量記憶體和計算資源,但是multi-head attention機制中一些head學習並不需要全域性資訊,只需要區域性資訊就可以,因此文章主要是提出了一種span-based dynamic convolution的方法代替一些head attention,同時還會保留一部分head仍然學習全域性資訊,最後文章還對bert後面的網路結構進行最佳化,減少了計算量,像bottleneck design for self-attention還有就是grouped feed-forward module

具體attention這塊網路結構見下圖所示:

【conference】-nips2020感興趣文章list-技術文章10

Labeling unlabelled videos from scratch with multi-modal self-supervision

這篇比較有意義,後面會專門寫篇文章記錄一下,主要思想是從這篇Self-labeling via simultaneous clustering and representation learning來的,那篇主要還是從image角度來做得,這篇是從video角度來做,看網站demo完全unlabeling學習生成得cluster還是不錯得

video相比image主要區別就是多了一個audio modality,因此可以多做一個loss學習,那就是audio的cluster和video的cluster屬於同一個cluster,這裡面還有一些細節,就是最開始引數隨機初始化的時候audio和video的cluster很難一樣,這樣就導致很難學習,因此做了一些改動讓他能夠很快sync一起訓練

還有一個比較大的改動就是instance index到cluster index對映這一塊,cluster的分佈最初是uniform distribution的,但是這樣明顯不適合一些Unbalance的資料分佈學習,因此cluster這塊搞了個permutation matrix幫助能夠學習到任何class分佈的資料

Hard Negative Mixing for Contrastive Learning

在contrastive learning裡面因為positive pair很容易找,之前生成negative pair的時候都需要將歷史很多instance存起來,這樣就會導致記憶體開銷很大,以及生成batch size的時候也要很大,同時發現這個存negative 的bank長度影響實際的效果,往往越大效果越好,同時hard negative pair非常有必要

給出了生成hard negative pair的方式,包括兩種模式,步驟基本一樣,就是生成negative instance庫,這個一般存的數量可以遠遠小於之前的,然後再根據這個negative instance庫生成新的instance,包括兩種方式,一種是negative feature + negative feature mix生成,另一種能夠生成更加hard negative pair對 就是positive feature + negative feature mix生成

Universal Domain Adaptation through Self Supervision

Domain Adaptation,source label set和target label set 往往並不相同,存在多種對應關係,相等,包含,部分包含等,但是之前的每種演算法主要是基於某一種對應關係去解決,但是事先其實很多時候是不知道source label和target label的關係,這樣會導致如果不是用對應的方法效果會受影響,另外一方面是之前會更加強調target feature學習在source data上更有區分度,但是忽視了真正在target data學習更有區分度的feature

提供了一種新的學習方法,就是新的loss,包含兩部分 neighborhood clustering loss和entropy separation loss,主要側重還是最佳化在source class找不到對應label這種情況,NC loss是說會讓target data往source known class靠近或者是往target data裡的neighbor靠近,這樣就一味避免去硬靠source known class,ES loss是說在學習過程中要讓known class之間的距離變近,但是unknown class(靠近neighbor data)這種離known class距離變遠

OOD-MAML: Meta-Learning for Few-Shot Out-of-Distribution Detection and Classification

Feature Importance Ranking for Deep Learning

Not All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning

SSL的loss function是

l_S(x,y,\theta)+\lambda l_U(u,\theta)

,對於所有的unlabel data同樣weight肯定不合理,應該每條data都給以不同權重

具體做法就是引入新的hyper parameter,然後交替最佳化model parameter和example weights

因為最佳化example weights計算量巨大,會導致整個訓練過程非常慢,文章介紹了加速訓練的方法,有時間再具體瞭解

Make One-Shot Video Object Segmentation Efficient Again

Semi-Supervised Neural Architecture Search

NAS中一個比較關鍵的元件就是controller,他主要作用是評估一個architecture的結構的好壞,文章使用了self-training的思想來幫助更好學習controller,主要思路就是使用N個architecture並進行訓練和評估得到accuracy,並且訓練controller,然後再用這個controller給M個architecture打分,類似pseudo label,然後再將兩者放到一起去學習

具體細節主要包括三部分,第一是controller可以拆成兩部分,ex = fe(x)和p=fp(ex),第二是controller loss上由

\lambda*L_{total} = \lambda*L_{predict} + (1-\lambda)L_{reconstruct}

,第三就是在M個architecture裡面選取top K個architecture,每個根據gradient ascent optimization(

e^{

)找到更好的一個architecture,加到N個architecture裡面去評估

What is being transferred in transfer learning?p

transfer learning 中遷移的不僅僅是feature-reuse同時還有low-level statics(pixel values distribution)

對比了從pre-trained model訓練的model和random initialized訓練的區別,前者在target domain上犯同樣的錯誤,有相似的feature,並且在parameter space上也會距離更近

更低layer更多負責的是general features,高layer會更加敏感如果打亂他的引數

選用pre-trained的時候不需要選用最後的checkpoint,之前的也可以,只需要之前的model進入他的final basin

Cycle-Contrast for Self-Supervised Video Representation Learning