本週 Hinton、李飛飛都有新論文面世。Hinton 等提出了新的最佳化演算法,而李飛飛等在影片預測任務上實現了新的 SOTA 模型。此外還有自然語言理解評價方法、文字+影象資料融合任務的綜述,以及對深度學習的硬體進行評價的文章等。

機器之心整理 ,參與:一鳴、思源。

目錄:

Lookahead Optimizer: k steps forward, 1 step back

Eidetic 3D LSTM: A Model for Video Prediction and Beyond

Discourse-Based Evaluation of Language Understanding

Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods

Neural Point-Based Graphics

Benchmarking TPU, GPU, and CPU Platforms for Deep Learning

Unifying Logical and Statistical AI with Markov Logic

1.標題:Lookahead Optimizer: k steps forward, 1 step back

作者:Michael R。 Zhang、James Lucas、Geoffrey Hinton、Jimmy Ba

論文連結:

https://

arxiv。org/pdf/1907。0861

0v1

Keras 實現:

https://

github。com/bojone/keras

_lookahead

PyTorch 實現:

https://

github。com/alphadl/look

ahead。pytorch

摘要:

這篇論文提出 Lookahead 演算法與已有的方法完全不同,它迭代地更新兩組權重。直觀來說,Lookahead 演算法透過提前觀察另一個最佳化器生成的「fast weights」序列,來選擇搜尋方向。該研究發現,Lookahead 演算法能夠提升學習穩定性,不僅降低了調參需要的功夫,同時還能提升收斂速度與效果。研究表示,Lookahead 在殘差網路(ImageNet)、Transformer(WMT 2014)等模型上,演算法的效能顯著優於 SGD 和 Adam。

推薦:

首先這篇論文表示 Lookahead 可以大幅度提升 Adam 等最佳化器的效果,且作者包括圖靈獎得主 Geoffrey Hinton 和 Adam 原論文作者 Jimmy Ba,所以非常值得我們一讀。此外,因為演算法實現起來並不困難,而且在各種任務上都能有很穩定的表現,因此也非常值得我們一試。

7 Papers | Hinton、李飛飛各有新作;深度學習硬體效能評價

如上左圖展示了 Lookahead 的兩種引數更新方法:Fast 和 Slow。相比藍色線的標準 SGD,紅色線的 Slow weights 在接近收斂時能探索到更好的最優解。右圖展示了 Lookahead 的虛擬碼,我們可以看到,快更新相當於做了一系列實驗,然後慢更新再根據實驗結果選一個好方向。

2.標題:Eidetic 3D LSTM: A Model for Video Prediction and Beyond

作者:Yunbo Wang 、Lu Jiang 、Ming-Hsuan Yang 、Li-Jia Li 、Mingsheng Long 、Li Fei-Fei

論文地址:

https://

openreview。net/pdf?

id=B1lKS2AqtX

實現連結:

https://

github。com/metrofun/E3D

-LSTM

摘要:

時空預測儘管被認為是一種有效的自監督特徵學習策略,但目前仍很少體現出在影片預測之外的效果。這是因為,學習短期幀的依賴和長期的高階關係的表示非常困難。研究人員在這篇論文中提出了一個新的模型,名為「Eidetic 3D LSTM (E3D-LSTM)」。模型可以將三維的卷積資訊融合在 RNN 中。這種內嵌的三維卷積層使得 RNN 具有區域性的動作敏感性,並可以使機器單元儲存更好的短期特徵。

對於長期關係,研究人員使用門控制自注意力單元,使得現在的記憶狀態和歷史記錄進行互動。研究人員稱這種記憶轉移機制為「eidetic」,因為它能夠使模型「回憶」起多個時間步前記憶的資訊。研究人員首先在廣泛使用的影片預測資料集上進行了測試,結果達到了 SOTA。然後,他們展示了模型在早期活動檢測(early activity recognition)任務上的表現。模型能夠在觀察少量幀數的影片後推斷出發生了什麼,以及將要發生什麼。這個任務和影片預測中的建模動作意圖和趨勢的任務很好地配合。

推薦:

影片預測任務新 SOTA,作者包括李飛飛等,團隊包括清華大學、斯坦福大學、谷歌大腦等的研究人員。

7 Papers | Hinton、李飛飛各有新作;深度學習硬體效能評價

如上展示了三種將三維卷積融合到迴圈神經網路的方式,藍色箭頭表示使用三維卷積的資料轉換路徑。a 和 b 分別在時空 LSTM 的前後加上三維卷積運算,它們本質上沒有什麼區別,而且將三維卷積放在 LSTM 單元外效果並不好。c 則展示了 E3D-LSTM 的編碼器解碼器結構,它將三維卷積嵌入到 LSTM 單元內,從而將卷積特徵用於迴圈網路的隱狀態。

3.標題:Discourse-Based Evaluation of Language Understanding

作者:Damien Sileo、Tim Van-de-Cruys、Camille Pradel、Philippe Muller

論文連結:

https://

arxiv。org/pdf/1907。0867

2。pdf

實現地址:

https://

github。com/synapse-deve

loppement/DiscEval

摘要:

在本文中,研究者介紹了 DiscEval,它包含 11 個評估資料集,並以語篇為重點,可用於英語自然語言理解的評估。他們證明,語篇評估任務被忽視了,並且自然語言推理(NLI)預訓練可能無法學習到真正的通用型表徵。DiscEval 還可以用作多工學習系統的補充訓練資料,它是公開可用的,同時提供收集和預訓練資料集的程式碼。

推薦:

本文總結了自然語言理解的評估方法,可作為評價語言模型效能的重要參考。

7 Papers | Hinton、李飛飛各有新作;深度學習硬體效能評價

表 1:DiscEval 的文字分類資料集。

4.標題:Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods

作者:Aditya Mogadala、Marimuthu Kalimuthu、Dietrich Klakow

論文連結:

https://

arxiv。org/pdf/1907。0935

8v1。pdf

摘要:

近年來,由於機器學習、計算機視覺和神經語言處理等多學科社群日益高漲的興趣,視覺與語言任務的整合已經取得了顯著的進展。在這篇綜述文章中,研究者重點講述了十項不同的視覺與語言整合任務,並就這些任務的問題界定、方法、現有資料集、評估度量以及以相應 SOTA 方法所實現結果的對比進行詳解。本次調研較以往更為深入,先前的研究要麼針對特定任務,要麼僅集中於影象或影片等單一型別的內容。最後,研究者探討了未來視覺與語言研究整合可能的發展方向。

推薦:

目前,文字和影象資料融合模型的論文綜述依然不多,本文不失為系統理解這一新興機器學習分支領域的優秀論文。

7 Papers | Hinton、李飛飛各有新作;深度學習硬體效能評價

圖 1:論文中展示的十種需要融合文字和影象資料的機器學習任務。

5.標題:Neural Point-Based Graphics

作者:Kara-Ali Aliev、Dmitry Ulyanov、Victor Lempitsky

論文連結:

https://

arxiv。org/pdf/1906。0824

0。pdf

實現地址:

https://

github。com/WangYueFt/dg

cnn

摘要:

在本文中,研究者提出了一種新的基於點的複雜場景建模方法。該方法使用原始點雲作為場景的幾何表徵,並且利用能夠編碼區域性幾何結構和外觀的可學習神經描述符來增大每個點。深度渲染網路與描述符同時進行學習,這樣從新視點將點雲的光柵部分穿過這個網路,從而獲得場景的新檢視。研究表明,這種新方法可用於建模複雜場景、得到這些場景的逼真檢視,同時能夠避免顯式表面估計和網格化。具體來講,使用手持商用 RGB-D 感測器和標準 RGB 攝像頭可以在場景掃描任務中獲得令人信服的結果。

推薦

:僅用點雲和影片結合就完成了實時動態的影片渲染,還不需要特別昂貴的景深相機,這樣新奇的論文值得讀者閱讀。

7 Papers | Hinton、李飛飛各有新作;深度學習硬體效能評價

論文對影象的渲染效果和其他方法及 Ground Truth 的對比。第二行中間為論文的方法,最右側為 Ground Truth。肉眼可見,論文的方法效果更好。

6.標題:Benchmarking TPU, GPU, and CPU Platforms for Deep Learning

作者:Yu (Emma) Wang、Gu-Yeon Wei、David Brooks

論文連結:

https://

arxiv。org/pdf/1907。1070

1。pdf

摘要:

為了系統地對深度學習平臺進行基準測試,研究者提出了 ParaDnn,這是一個用於深度學習的引數化基準測試套件,它能夠為全連線(FC)、卷積(CNN)和迴圈(RNN)神經網路生成端到端的模型。研究者使用 6 個實際模型對 Google 的雲 TPU v2/v3、NVIDIA 的 V100 GPU,以及 Intel 的 Skylake CPU 平臺進行了基準測試。他們深入研究了 TPU 的架構,揭示了它的瓶頸,並重點介紹了能夠用於未來專業系統設計的寶貴經驗。研究者還提供了平臺的全面對比,發現每個平臺對某些型別的模型都有自己獨特的優勢。最後,他們量化了專用的軟體堆疊對 TPU 和 GPU 平臺提供的快速效能改進。

有關深度學習演算法的基準測試論文已是汗牛充棟,但對硬體平臺進行測試的論文很少見。透過本論文,讀者可系統瞭解各種機器學習訓練的平臺特性,並針對自身的需求選擇。

7 Papers | Hinton、李飛飛各有新作;深度學習硬體效能評價

上表展示了所有基準測試得出來的結果與見解,它測試了不同神經網路結構在不同硬體平臺上的效果。每一條觀察結果或結論都有具體的實驗圖示支援,讀者可詳細查閱原論文。

7.標題:Unifying Logical and Statistical AI with Markov Logic

作者:Pedro Domingos、Daniel Lowd

論文連結:

https://

homes。cs。washington。edu

/~pedrod/papers/cacm19。pdf

摘要:

多年來,人工智慧的主要兩大分支為:邏輯人工智慧和統計人工智慧。邏輯人工智慧使用一等邏輯和相關表示捕捉複雜關係和知識。然而,在許多應用中,邏輯人工智慧在處理不確定性和噪聲時較為脆弱。統計人工智慧則使用機率表示,如機率圖模型,來捕捉不確定性。然而,圖模型只能表示顯式的全域性資訊,無法處理關係領域。本文提出一種名為馬爾科夫邏輯的方法,結合兩種模型。

推薦:

Keras 之父日前表示,目前機器學習沒能解決人工智慧的基本問題。本論文值得想要了解邏輯人工智慧的讀者閱讀。

7 Papers | Hinton、李飛飛各有新作;深度學習硬體效能評價

雖然從屬於 AI 這個大領域,但如上所示邏輯方法與統計方法在不同的子領域上都有自己的一套方法。本文嘗試透過馬爾可夫邏輯統一這兩種方法,並利用它們各自的優勢,感興趣的讀者可詳細閱讀論文。

7 Papers | Hinton、李飛飛各有新作;深度學習硬體效能評價