EMNLP 2018
寫在前面:
看了Transformer的paper之後,我一直認為transformer的效果好的一個重要原因是更強的建模長距離依賴的能力,畢竟所有層都是全連線,path length都是1,但這篇paper告訴我並不是,self-attentional networks and CNNs do not outperform RNNs in modeling subject-verb agreement over long distances。
網路路徑更短的模型並不一定有更強的建模長距離依賴的能力。
RNN天生就有position的資訊,而CNN和transformer目前還只能依靠position embedding來提供position的資訊。這可能是CNN和Transformer建模長距離依賴能力一般的原因之一。
用subject-verb agreement主謂一致任務來判斷模型建模長距離依賴的能力,用word sense disambiguation詞義消歧任務來判斷模型抽取語義特徵的能力。
transformer和CNN是強在抽取詞義特徵的能力。
self-attention裡的multi-head多頭really matters。
RNNS2S的decoder初始狀態為encoder的hidden states的avg或者-1,這個我感覺可以當一個trick。
可以試試transformer+RNN的模型。
Background
本文主要關注的是機器翻譯任務,選了三個NMT模型,分別基於CNN,RNN和Transformer。
RNNS2S
path length == n
用了殘差連線和attention。
ConvS2S
path length == upper(n/(k-1))
具體參照這篇吧
TransformerS2S
path length == 1
具體參照這篇吧
Contrastive Evaluation of Machine Translation
BLEU作為驗證翻譯整體質量的metric在這裡不適用,對照翻譯集可以用來分析特定型別的錯誤,人類的參考翻譯會帶上幾個變種,同時引入特定型別的錯誤。
NMT模型是條件語言模型,給定source sentence S和target sentence T,NMT模型會計算出
,在這裡,如果模型給reference translation的score比它的variants高,就認為這是一個正確的decision,模型在測試集上的accuracy就是正確decision的比例。
Lingeval97
一共97000個English→German contrastive translation pairs,這裡只用了35105個subject-verb agreement category的,用於主謂一致任務。
ContraWSD
給定source sentence裡一個有歧義的詞,然後把正確翻譯的詞換成這個詞的另外一個含義。用於詞義消歧任務。
Experiment
Subject-verb Agreement
圖中可以看出,在distance超過13後,RNN的效果並不比另外兩個差,且CNN表現很差。
CNN在主謂一致任務上表現遠不如RNN。
作者還驗證了multi-head的重要性,head的數量越大,Transformer建模長距離依賴的能力就越強。
WSD