十大深度學習熱門論文（2018年版）

編者：Bot

編者按：深度學習是機器學習和統計學的一個分支領域，在過去幾年裡，它因為一些突出成果開始出現在大眾視野中，並給人們留下了深刻印象。對於這些技術突破，它背後的Robust開源工具、雲計算以及大量可用的資料功不可沒。本文依據academic。microsoft。com的論文引用次數列出了今年最熱門的十大深度學習論文，希望能給讀者提供有價值的閱讀參考。

注：本文最初寫於今年4月，故引用次數數值為2018年4月20日前資料。

在這份論文清單中，超過75%的文章涉及深度學習和神經網路，其中卷積神經網路（CNN）的比重格外出眾，而計算機視覺論文的佔比也有50%。在前人優秀論文的指引下，隨著TensorFlow、Theano等開源軟體庫的日益完善和GPU等硬體的不斷髮展，相信未來資料科學家和機器學習工程師的學習工作之路將是一片坦途。

1。 Deep Learning

作者：Yann L., Yoshua B. , Geoffrey H. (2015)

引用次數：5716

摘要

深度學習允許由多個處理層組成的計算模型來學習具有多個抽象級別的資料表示。這種方法極大地改進了語音識別、視覺物件識別、物件檢測和諸如藥物發現和基因組學等許多其他領域的最新技術。透過反向傳播演算法，深度學習能捕捉大型資料集中的複雜結構，並在前一個處理層的基礎上改變內部引數獲得一個能表示前者的全新處理層。深度卷積網路在處理影象、影片、語音和音訊方面取得了突破，並點亮了連續資料處理，如文字和語音的發展道路。

多層神經網路和反向傳播

圖a是一個普通的感知器（黑點表示神經元），它透過使輸入空間失真，從而讓資料的類別（紅藍曲線）實現線性分離。請注意輸入空間中的網格（如左圖所示）是如何透過隱藏節點進行變形的（如中間圖所示）。該多層神經網路只包含兩個輸入、兩個隱藏節點和一個輸出，但在實踐過程中，用於物件識別和自然語言處理的神經網路通常會包含數十或數十萬個單元。

圖c和圖d是神經網路反向傳播的具體計算過程。

PDF：www.cs.toronto.edu/~hinton/absps/NatureDeepReview.pdf

2。 TensorFlow： Large-Scale Machine Learning on Heterogeneous Distributed Systems

作者：Martín A., Ashish A. B., Eugene B. C., et al. (2015)

引用次數：2423

摘要

TensorFlow是一個機器學習演算法的介面，它也是這些演算法的實現平臺。從移動裝置（手機、平板電腦等）到數百臺大型分散式系統，再到由數千個GPU構成的計算裝置，僅需少量修改（甚至無需修改），使用者就能輕鬆把在TensorFlow上實現的演算法放到這些異構系統中執行。這個系統是非常靈活的，它可以表達包括深度神經網路模型的訓練、推理演算法在內的各種演算法，並且已經在十幾個計算機科學研究領域的機器學習系統中有了廣泛應用，其中包括語音識別、計算機視覺、機器人技術、資訊檢索、自然語言處理、地理資訊提取和計算藥物發現等。

TensorFlow示例程式碼

以上程式碼的資料流圖

在上圖中，每個節點都有0個/多個輸入和0個/多個輸出，表示箭頭計算操作的結果。我們把那些順著資料流圖計算（從輸入到輸出）“流動”的值稱為張量，這是一個N階的陣列，它的基礎資料型別可以是一開始就指定好的，也可以是一開始推理的結果。

圖中有一些叫

control dependencies

的特殊帶箭頭線段，沒有資料沿著它們流動，但它們明確表示了源節點和目標節點的計算指定順序。這反映了TensorFlow的靈活可變性，使用者可以透過插入命令強制為各個獨立操作排序，這也有助於控制峰值記憶體的使用情況。

PDF：download.tensorflow.org/paper/whitepaper2015.pdf

3。 TensorFlow： a system for large-scale machine learning

作者：Martín A., Paul B., Jianmin C., Zhifeng C., Andy D. et al. (2016)

引用次數：2227

摘要

TensorFlow是一個可以在大規模和異構環境中執行的機器學習系統。它用資料流圖表示計算、共享狀態以及改變該狀態的操作。透過把資料流圖的節點對映到群集中的多臺機器上，TensorFlow能跨越多個分散式裝置呼叫多核CPU、GPU和TPU的算力，從而實現大規模的訓練和推理。這種架構為開發者提供了便利：在之前的引數伺服器中，共享狀態管理內建在系統中，而TensorFlow則為使用者提供了嘗試新的最佳化和訓練演算法的可能性。它支援各種應用程式，尤其是深度神經網路的訓練和推理。

TensorFlow資料流圖

TensorFlow使用單個數據流圖表來表示在機器學習演算法中的所有計算和狀態，包括各個數學運算、引數及其更新規則、輸入處理（如上圖所示）。資料流使得子計算之間的通訊變得明確，因此易於並行執行獨立計算，並且將計算跨越多個分散式裝置。

TensorFlow資料流與批處理系統有兩個方面的不同：

支援重疊子圖上的併發執行。

單個頂點可具有可變狀態，這些狀態在圖的不同執行之間共享。

引數伺服器架構中的關鍵—可變狀態。因為當訓練大模型時，可對大量引數就地更新，並快速將這些更新傳播到並行訓練中。具有可變狀態的資料流使TensorFlow能夠模擬引數伺服器的功能，同時具有額外的靈活性，因為可在託管共享模型引數的機器上執行任意資料流子圖。因此，使用者已經能夠嘗試不同的最佳化演算法、一致性方案和並行化策略。

以上描述內容引用自：lib。csdn。net/article/aiframework/57886

PDF：www.usenix.org/system/files/conference/osdi16/osdi16-abadi.pdf

4。 Deep learning in neural networks

作者：Juergen Schmidhuber (2015)

引用次數：2196

摘要

近年來，深層人工神經網路（包括迴圈網路）在模式識別和機器學習等方面贏得了眾多競賽。本綜述簡明扼要地總結了這一技術的相關工作，其中大部分來自上個世紀，從1940年到60-80年代，再到80-90年代。為了描述得更深入淺出，本文在常規分類之餘又依據影響力做了劃分，以便讀者從行為和效果兩方面建立學習的因果關係。深度監督學習（包括反向傳播演算法歷史）、無監督學習、強化學習、進化策略等是本文的主要關注物件。

文中部分縮略詞表：

PDF：arxiv.org/pdf/1404.7828.pdf

5。 Human-level control through deep reinforcement learning（DQN）

作者：Volodymyr M., Koray K., David S., Andrei A. R., Joel V et al (2015)

引用次數：2086

簡介

這是DeepMind團隊在2015年發表在science上的一篇文章，被譽為深度強化學習的開山鼻祖。

文章指出當強化學習智慧體面對一個很難的任務時，它們必須從高維度的感知輸入中提取出環境的高效描述。對於這種情況，人和動物一般會結合學習和有層次的感覺處理系統找出解決方案，但過去的強化學習演算法智慧應對全部可觀測的、低維的特定任務，而無法擴充套件到未知的、高維的任務中。

本文提出了一種deep Q-network，它將強化學習和深度神經網路結合起來，使深度神經網路具有從裸資料中提取特徵的能力。換句話說，就是它可以直接從高維輸入中學習優秀策略，並進行端到端的強化學習。在Atari遊戲實驗中，DQN演算法在只輸入原始影象畫素和遊戲得分的情況下學會了玩遊戲，並且達到了人類專業玩家的水平。

PDF：web.stanford.edu/class/psych209/Readings/MnihEtAlHassibis15NatureControlDeepRL.pdf

6。 Faster R-CNN： Towards Real-Time Object Detection with Region Proposal Networks

作者：Shaoqing R., Kaiming H., Ross B. G. & Jian S. (2015)

引用次數：1421

摘要

目前最先進的目標檢測網路需要先用區域建議演算法推測目標位置，像SPPnet和Fast R-CNN這些網路已經減少了檢測網路的執行時間，這時計算區域建議就成了瓶頸問題。本文介紹了一種區域建議網路（Region Proposal Network， RPN），它和檢測網路共享全圖的卷積特徵，從而實現無時間成本的區域建議。RPN是一個全卷積網路，在每個位置同時預測目標邊界和objectness得分。RPN是端到端訓練生成高質量的區域建議框，用於Fast R-CNN檢測。透過一種簡單的交替執行最佳化方法，RPN和Fast R-CNN可以在訓練時共享卷積特徵。

Faster R-CNN

這個物件檢測系統稱為Faster R-CNN，它由兩個模組組成。第一個模組是深度完全卷積網路的建議區域（RPN），它決定了模型“往哪裡看”——它將一個任意大小影象作為輸入，並輸出一組矩形目標建議框，每個框有一個objectness得分。第二個模組是使用Fast R-CNN的建議區域，它利用輸入將邊界框裡的內容分類（或標記成“背景”標籤丟棄它），並調整邊界框的座標，使其更適合目標物件。整個系統是一個統一的物體檢測網路，結合了最近流行的神經網路術語“注意力”機制。

論文中譯版（摘要來源）

：blog。csdn。net/lwplwf/article/details/74906205

實現

：目標檢測技術之Faster R-CNN詳解

PDF：arxiv.org/pdf/1506.01497.pdf

7。 Long-term recurrent convolutional networks for visual recognition and description

作者：Jeff D., Lisa Anne H., Sergio G., Marcus R., Subhashini V. et al. (2015)

引用次數：1285

摘要

近期深度卷積網路模型在影象說明任務中非常流行，因此本文測試了它在其他涉及序列、影象任務中的效果。本文介紹了一類可以端對端訓練的、適用於大規模圖片理解工作的遞迴卷積網路，證明它們可被用於行為識別、圖片描述和影片描述。

對比於之前的假定一個固定的圖片表示或者運用簡單的時間序列來進行序列處的模型，遞迴卷積模型學習空間和時間的組合表示“倍增”了。當非線性被引入網路狀態更新時，學習長時依賴成為可能。可微的遞迴網路之所以吸引人，是因為它們能直接將變長輸入（影片）對映為變長輸出（自然語言文字），能夠模擬複雜的動態時序；目前能夠透過反向傳播進行最佳化。

本文的遞迴序列模型是直接和當前圖片卷積網路連線的，能夠聯合訓練以學習動態時序和卷積表徵。本文結果顯示這樣的模型相對於現有模型在用於單獨定義或最佳化的識別、生成任務上，有明顯優勢。

本文透過3個實驗設定去例項化提出來的模型。第一，傳統卷積模型直接和深LSTM網路向量，我們能夠訓練捕捉時態狀態依賴項的影片識別模型。然而現有標記的影片行為資料集可能沒有特定的複雜行為的時序動態，但是我們仍對傳統benchmark進行了提升。

第二，我們研究了一個從影象到語義的端對端可訓練的對映。機器翻譯最近取得了很多成果，這類模型是基於LSTM的編碼-解碼對。我們提出了這個模型的多模型模擬，描述了一個結構，該結構利用圖片的ConvNet去編碼一個深度狀態向量，一個LSTM解碼該向量為一個自然語言字串。最終模型能夠用於大規模圖片和文字資料集的端對端訓練，即使是不完全訓練，對比於現有方法，也能得到一個較好的生成結果。

第三，本文顯示，LSTM解碼器能直接從傳統的預測高階標籤的計算機視覺方法上加以運用，例如語義影片角色陣列預測。這類模型在結構和效能上優於原來的基於統計機器翻譯的方法。

描述來源（簡書）

：www。jianshu。com/p/abe840207dbe

PDF：arxiv.org/pdf/1411.4389.pdf

8。 MatConvNet： Convolutional Neural Networks for MATLAB

作者：Andrea Vedaldi & Karel Lenc (2015)

引用次數：1148

摘要

MatConvNet是一個可以實現CNN的MATLAB工具箱。它的設計注重簡單性和靈活性，透過把CNN構件塊轉換為易於使用的MATLAB函式，並提供filter元件和特徵池化等工具，MatConvNet能快速構建CNN模型，同時，它也支援在CPU、GPU高效計算基於大型資料集（如ImageNet ILSVRC）的複雜模型。本文件概述了CNN及其在MatConvNet中的實現方式，並給出了工具箱中每個計算塊的技術細節。

PDF：arxiv.org/pdf/1412.4564.pdf

9。 Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks（DCGAN）

作者：Alec R., Luke M. & Soumith C. (2015)

引用次數：1054

摘要

近年來，監督學習式的卷積神經網路（CNN）在計算機視覺任務中得到了廣泛的應用，但相比之下，無監督學習的CNN受到的關注較少。因此本文希望能夠探討監督學習CNN和無監督學習CNN之間的差距。本文引入了一類名為深層卷積生成對抗網路（DCGAN））的CNN，它具有一定的架構約束，算得上是最好的無監督學習CNN。在各種資料集上完成訓練後，實驗證明DCGAN的生成器和判別器都捕捉到了物件、場景中的視覺資訊表示層次，它在一般影象上也表現出了優秀的適用性。

LSUN場景模型中DCGAN的生成器結構

論文中譯版：blog。csdn。net/liuxiao214/article/details/73500737

PDF：arxiv.org/pdf/1511.06434.pdf

10。 U-Net： Convolutional Networks for Biomedical Image Segmentation

作者：Olaf R., Philipp F. &Thomas B. (2015)

引用次數：975

簡介

相對ImageNet等通用資料集，醫學影象資料集較小。如何在小資料集情況下訓練出一個好的模型，是深度學習在醫學影象方面的一個難點。本文提出了一種神經網路和訓練策略，它依靠大量使用資料增強，能實現高效、充分利用標記樣本。

U-Net運用了與FCN相同的技巧，將淺層特徵圖與深層特徵圖結合（圖中copy and crop箭頭），這樣可以結合區域性“where”以及全域性“what”的特徵，生成更精準的影象。但它並不像FCN將特徵相加，而是concatenate生成雙倍通道的特徵圖，再卷積。

U-Net

PDF：arxiv.org/pdf/1505.04597.pdf

十大深度學習熱門論文（2018年版）

據說彈力襪可以治療靜脈曲張，請問在靜脈曲張的地方用緞帶等物品圈住會有相同作用嗎？

為什麼面對陌生人的時候更容易交心？

隨便看看

漢江典故？

暖腳寶哪個牌子好？

英語四級385什麼水平？

古代紫砂壺為什麼蓋是獅子？

十大深度學習熱門論文（2018年版）

據說彈力襪可以治療靜脈曲張，請問在靜脈曲張的地方用緞帶等物品圈住會有相同作用嗎？

為什麼面對陌生人的時候更容易交心？

猜你喜歡

什麼是模型的基本特徵？

CNN：我不是你想的那樣

ResNext與Xception——對模型的新思考

隨便看看

漢江典故？

暖腳寶哪個牌子好？

英語四級385什麼水平？

古代紫砂壺為什麼蓋是獅子？