EMNLP2018-Why self-attention?

EMNLP 2018

寫在前面：

看了Transformer的paper之後，我一直認為transformer的效果好的一個重要原因是更強的建模長距離依賴的能力，畢竟所有層都是全連線，path length都是1，但這篇paper告訴我並不是，self-attentional networks and CNNs do not outperform RNNs in modeling subject-verb agreement over long distances。

網路路徑更短的模型並不一定有更強的建模長距離依賴的能力。

RNN天生就有position的資訊，而CNN和transformer目前還只能依靠position embedding來提供position的資訊。這可能是CNN和Transformer建模長距離依賴能力一般的原因之一。

用subject-verb agreement主謂一致任務來判斷模型建模長距離依賴的能力，用word sense disambiguation詞義消歧任務來判斷模型抽取語義特徵的能力。

transformer和CNN是強在抽取詞義特徵的能力。

self-attention裡的multi-head多頭really matters。

RNNS2S的decoder初始狀態為encoder的hidden states的avg或者-1，這個我感覺可以當一個trick。

可以試試transformer+RNN的模型。

Background

本文主要關注的是機器翻譯任務，選了三個NMT模型，分別基於CNN，RNN和Transformer。

RNNS2S

path length == n

用了殘差連線和attention。

ConvS2S

path length == upper（n/（k-1））

具體參照這篇吧

TransformerS2S

path length == 1

具體參照這篇吧

Contrastive Evaluation of Machine Translation

BLEU作為驗證翻譯整體質量的metric在這裡不適用，對照翻譯集可以用來分析特定型別的錯誤，人類的參考翻譯會帶上幾個變種，同時引入特定型別的錯誤。

NMT模型是條件語言模型，給定source sentence S和target sentence T，NMT模型會計算出

，在這裡，如果模型給reference translation的score比它的variants高，就認為這是一個正確的decision，模型在測試集上的accuracy就是正確decision的比例。

Lingeval97

一共97000個English→German contrastive translation pairs，這裡只用了35105個subject-verb agreement category的，用於主謂一致任務。

ContraWSD

給定source sentence裡一個有歧義的詞，然後把正確翻譯的詞換成這個詞的另外一個含義。用於詞義消歧任務。

Experiment

Subject-verb Agreement

圖中可以看出，在distance超過13後，RNN的效果並不比另外兩個差，且CNN表現很差。

CNN在主謂一致任務上表現遠不如RNN。

作者還驗證了multi-head的重要性，head的數量越大，Transformer建模長距離依賴的能力就越強。

WSD

EMNLP2018-Why self-attention?

假如（戰狼2）的票房被定格在60億，他們各個環節的分成是怎麼分，吳京能拿到多少？

dream it possible歌詞諧音啊

隨便看看

元字怎麼寫霸氣？

文玩手串旁邊的配飾可以不要嗎？

導盲犬什麼品種？

900克掛麵夠多少人吃？

EMNLP2018-Why self-attention?

假如（戰狼2）的票房被定格在60億，他們各個環節的分成是怎麼分，吳京能拿到多少？

dream it possible歌詞諧音啊

猜你喜歡

資訊系統需求分析的常用建模方法？

Catia好學嗎？

Maya max c4d這三個軟體做特效哪個比較強大?比較人性化? 我知道這三個軟體各有千秋，拋？

隨便看看

元字怎麼寫霸氣？

文玩手串旁邊的配飾可以不要嗎？

導盲犬什麼品種？

900克掛麵夠多少人吃？