【conference】-nips2020感興趣文章list-技術文章10

掃了一下nips2020 accepted paper，找到一些感興趣的，有一些還沒有把文章發出來，後面等內容出來後再補~

Self-supervised Co-training for Video Representation Learning

Is normalization indispensable for training deep neural network

ConvBERT: Improving BERT with Span-based Dynamic Convolution

bert 依賴global self-attention block，通常會耗費大量記憶體和計算資源，但是multi-head attention機制中一些head學習並不需要全域性資訊，只需要區域性資訊就可以，因此文章主要是提出了一種span-based dynamic convolution的方法代替一些head attention，同時還會保留一部分head仍然學習全域性資訊，最後文章還對bert後面的網路結構進行最佳化，減少了計算量，像bottleneck design for self-attention還有就是grouped feed-forward module

具體attention這塊網路結構見下圖所示：

Labeling unlabelled videos from scratch with multi-modal self-supervision

這篇比較有意義，後面會專門寫篇文章記錄一下，主要思想是從這篇Self-labeling via simultaneous clustering and representation learning來的，那篇主要還是從image角度來做得，這篇是從video角度來做，看網站demo完全unlabeling學習生成得cluster還是不錯得

video相比image主要區別就是多了一個audio modality，因此可以多做一個loss學習，那就是audio的cluster和video的cluster屬於同一個cluster，這裡面還有一些細節，就是最開始引數隨機初始化的時候audio和video的cluster很難一樣，這樣就導致很難學習，因此做了一些改動讓他能夠很快sync一起訓練

還有一個比較大的改動就是instance index到cluster index對映這一塊，cluster的分佈最初是uniform distribution的，但是這樣明顯不適合一些Unbalance的資料分佈學習，因此cluster這塊搞了個permutation matrix幫助能夠學習到任何class分佈的資料

Hard Negative Mixing for Contrastive Learning

在contrastive learning裡面因為positive pair很容易找，之前生成negative pair的時候都需要將歷史很多instance存起來，這樣就會導致記憶體開銷很大，以及生成batch size的時候也要很大，同時發現這個存negative 的bank長度影響實際的效果，往往越大效果越好，同時hard negative pair非常有必要

給出了生成hard negative pair的方式，包括兩種模式，步驟基本一樣，就是生成negative instance庫，這個一般存的數量可以遠遠小於之前的，然後再根據這個negative instance庫生成新的instance，包括兩種方式，一種是negative feature + negative feature mix生成，另一種能夠生成更加hard negative pair對就是positive feature + negative feature mix生成

Universal Domain Adaptation through Self Supervision

Domain Adaptation，source label set和target label set 往往並不相同，存在多種對應關係，相等，包含，部分包含等，但是之前的每種演算法主要是基於某一種對應關係去解決，但是事先其實很多時候是不知道source label和target label的關係，這樣會導致如果不是用對應的方法效果會受影響，另外一方面是之前會更加強調target feature學習在source data上更有區分度，但是忽視了真正在target data學習更有區分度的feature

提供了一種新的學習方法，就是新的loss，包含兩部分 neighborhood clustering loss和entropy separation loss，主要側重還是最佳化在source class找不到對應label這種情況，NC loss是說會讓target data往source known class靠近或者是往target data裡的neighbor靠近，這樣就一味避免去硬靠source known class，ES loss是說在學習過程中要讓known class之間的距離變近，但是unknown class（靠近neighbor data）這種離known class距離變遠

OOD-MAML: Meta-Learning for Few-Shot Out-of-Distribution Detection and Classification

Feature Importance Ranking for Deep Learning

Not All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning

SSL的loss function是

$l_S(x,y,\theta)+\lambda l_U(u,\theta)$

，對於所有的unlabel data同樣weight肯定不合理，應該每條data都給以不同權重

具體做法就是引入新的hyper parameter，然後交替最佳化model parameter和example weights

因為最佳化example weights計算量巨大，會導致整個訓練過程非常慢，文章介紹了加速訓練的方法，有時間再具體瞭解

Make One-Shot Video Object Segmentation Efficient Again

Semi-Supervised Neural Architecture Search

NAS中一個比較關鍵的元件就是controller，他主要作用是評估一個architecture的結構的好壞，文章使用了self-training的思想來幫助更好學習controller，主要思路就是使用N個architecture並進行訓練和評估得到accuracy，並且訓練controller，然後再用這個controller給M個architecture打分，類似pseudo label，然後再將兩者放到一起去學習

具體細節主要包括三部分，第一是controller可以拆成兩部分，ex = fe（x）和p=fp（ex），第二是controller loss上由

$\lambda*L_{total} = \lambda*L_{predict} + (1-\lambda)L_{reconstruct}$

，第三就是在M個architecture裡面選取top K個architecture，每個根據gradient ascent optimization（

$e^{$

）找到更好的一個architecture，加到N個architecture裡面去評估

What is being transferred in transfer learning?p

transfer learning 中遷移的不僅僅是feature-reuse同時還有low-level statics（pixel values distribution）

對比了從pre-trained model訓練的model和random initialized訓練的區別，前者在target domain上犯同樣的錯誤，有相似的feature，並且在parameter space上也會距離更近

更低layer更多負責的是general features，高layer會更加敏感如果打亂他的引數

選用pre-trained的時候不需要選用最後的checkpoint，之前的也可以，只需要之前的model進入他的final basin

Cycle-Contrast for Self-Supervised Video Representation Learning

【conference】-nips2020感興趣文章list-技術文章10

郭敬明的好日子到頭了，上映9天票房4億多，投資人直接血虧

預算想買輛15萬左右的二手效能車，請問有什麼推薦？

隨便看看

電腦兩個螢幕互換操作？

珠寶品牌的翡翠能不能買，保真之餘是否物有所值?

汽油發電機要加多少機油？

bz什麼牌子？

【conference】-nips2020感興趣文章list-技術文章10

郭敬明的好日子到頭了，上映9天票房4億多，投資人直接血虧

預算想買輛15萬左右的二手效能車，請問有什麼推薦？

猜你喜歡

class的詞性？

關於loss不收斂的一些建議

將非同步操作封裝為藍圖節點

隨便看看

電腦兩個螢幕互換操作？

珠寶品牌的翡翠能不能買，保真之餘是否物有所值?

汽油發電機要加多少機油？

bz什麼牌子？