EMNLP 2018

寫在前面:

看了Transformer的paper之後,我一直認為transformer的效果好的一個重要原因是更強的建模長距離依賴的能力,畢竟所有層都是全連線,path length都是1,但這篇paper告訴我並不是,self-attentional networks and CNNs do not outperform RNNs in modeling subject-verb agreement over long distances。

網路路徑更短的模型並不一定有更強的建模長距離依賴的能力。

RNN天生就有position的資訊,而CNN和transformer目前還只能依靠position embedding來提供position的資訊。這可能是CNN和Transformer建模長距離依賴能力一般的原因之一。

用subject-verb agreement主謂一致任務來判斷模型建模長距離依賴的能力,用word sense disambiguation詞義消歧任務來判斷模型抽取語義特徵的能力。

transformer和CNN是強在抽取詞義特徵的能力。

self-attention裡的multi-head多頭really matters。

RNNS2S的decoder初始狀態為encoder的hidden states的avg或者-1,這個我感覺可以當一個trick。

可以試試transformer+RNN的模型。

Background

本文主要關注的是機器翻譯任務,選了三個NMT模型,分別基於CNN,RNN和Transformer。

EMNLP2018-Why self-attention?

RNNS2S

path length == n

EMNLP2018-Why self-attention?

用了殘差連線和attention。

ConvS2S

path length == upper(n/(k-1))

具體參照這篇吧

TransformerS2S

path length == 1

具體參照這篇吧

Contrastive Evaluation of Machine Translation

BLEU作為驗證翻譯整體質量的metric在這裡不適用,對照翻譯集可以用來分析特定型別的錯誤,人類的參考翻譯會帶上幾個變種,同時引入特定型別的錯誤。

NMT模型是條件語言模型,給定source sentence S和target sentence T,NMT模型會計算出

P(T|S)

,在這裡,如果模型給reference translation的score比它的variants高,就認為這是一個正確的decision,模型在測試集上的accuracy就是正確decision的比例。

Lingeval97

一共97000個English→German contrastive translation pairs,這裡只用了35105個subject-verb agreement category的,用於主謂一致任務。

EMNLP2018-Why self-attention?

ContraWSD

給定source sentence裡一個有歧義的詞,然後把正確翻譯的詞換成這個詞的另外一個含義。用於詞義消歧任務。

Experiment

Subject-verb Agreement

EMNLP2018-Why self-attention?

圖中可以看出,在distance超過13後,RNN的效果並不比另外兩個差,且CNN表現很差。

EMNLP2018-Why self-attention?

CNN在主謂一致任務上表現遠不如RNN。

作者還驗證了multi-head的重要性,head的數量越大,Transformer建模長距離依賴的能力就越強。

EMNLP2018-Why self-attention?

WSD

EMNLP2018-Why self-attention?