在這篇文章中,谷歌 Robotics 研究科學家 Eric Jang 對生物學可信深度學習(BPDL)研究提出了質疑。他認為,設計反向傳播的生物學可信替代方法壓根就是一個錯誤的問題。機器學習領域的一個嚴重錯誤就是,對統計學工具和最優控制演算法賦予了太多生物學意義。

選自Eric Jang部落格,作者: Eric Jang,機器之心編譯,編輯:魔王、張倩

「反向傳播」一定要在生物學上有對應?谷歌研究科學家提出質疑

生物學可信深度學習 (BPDL) 是神經科學與機器學習交叉領域中的一個活躍研究課題,主要研究如何利用在大腦中可實現的「學習規則」來訓練深度神經網路。

2015 年,深度學習巨頭 Yoshua Bengio 發表論文《Towards Biologically Plausible Deep Learning》,探索了更加符合生物學邏輯的深度表徵學習版本。該論文的主要觀點如下:

負責突觸權重更新的基礎學習規則 (Spike-Timing-Dependent Plasticity, STDP) 源於一個簡單的更新規則,該規則從機器學習的角度來看是有意義的,可以理解為在某個目標函式上的梯度下降,只要神經動態活動能將放電速率推向更好的目標函式值(可能是監督式、無監督式或獎賞驅動的);

這與變分 EM 法的形式相對應,也就是使用神經動力學實現的近似而非精確的後驗;

我們可以利用近似來估計上述變分解釋(variational interpretation)中更新隱藏狀態所需的梯度,只需將啟用向前和向後傳播,並且用成對的層來學習形成去噪自編碼器。

次年,在 NIPS 2016 Workshop 上,Yoshua Bengio 做了同名演講,其中就探討了「反向傳播」機制的生物學可信性。

「反向傳播」一定要在生物學上有對應?谷歌研究科學家提出質疑

在學習過程中,大腦會調整突觸以最佳化行為。在皮層中,突觸嵌入在多層網路中,這導致我們難以確定單個突觸的調整對整個系統行為的影響。而反向傳播演算法在深度神經網路中解決了上述問題,不過長期以來人們一直認為反向傳播在生物層面上存在問題。

去年 4 月,來自 DeepMind、牛津大學和谷歌大腦的 Timothy P。 Lillicrap、Adam Santoro、Geoffrey Hinton 等人在 Nature 子刊《Nature Reviews Neuroscience》發表文章,

認為反向連線可能會引發神經活動,而其中的差異可用於區域性逼近誤差訊號,從而促進大腦深層網路中的有效學習。即儘管大腦可能未實現字面形式的反向傳播,但是反向傳播的部分特徵與理解大腦中的學習具備很強的關聯性

「反向傳播」一定要在生物學上有對應?谷歌研究科學家提出質疑

大腦對反向傳播演算法的近似。

然而,討論並未終止。最近,谷歌 Robotics 研究科學家 Eric Jang 發表部落格,對 BPDL 中的反向傳播觀點提出質疑。

反向傳播為什麼一定要有生物學對應?

Eric Jang 首先列舉了推動 BPDL 發展的主要原因:

深度神經網路 (DNN) 可以學習執行生物大腦能夠完成的感知任務(如目標檢測與識別);

如果啟用單元及其權重與 DNN 的關係相當於神經元和突觸之於生物大腦,那麼反向傳播(訓練深度神經網路的主要方法)與什麼類似呢?

如果使用反向傳播無法實現大腦中的學習規則,那麼這些規則要如何實現呢?基於反向傳播的更新規則如何在遵循生物學約束的同時實現類似的效能?

有人曾列舉了反向傳播並非生物學可信的諸多理由,以及提出修復辦法的多種演算法。

「反向傳播」一定要在生物學上有對應?谷歌研究科學家提出質疑

而 Eric Jang 的反對意見主要在於,

設計反向傳播的生物學可信替代方法壓根就是一個錯誤的問題

。BPDL 的重要前提中包含了一個錯誤的假設:

層啟用是神經元,權重是突觸,因此藉助反向傳播的學習必須在生物學習中有對應的部分

儘管 DNN 叫做深度「神經網路」,並在多項任務中展現出了卓越能力,但它們本質上與生物神經網路毫無關聯。

機器學習領域的一個嚴重錯誤就是,對統計學工具和最優控制演算法賦予了太多生物學意義

。這往往使初學者感到困惑。

DNN 是一系列線性操作和非線性操作的交織,序列應用於實值輸入,僅此而已。它們透過梯度下降進行最佳化,利用一種叫做「反向傳播」的動態規劃機制對梯度進行高效計算。

動態規劃是世界第九大奇蹟,Eric Jang 認為這是計算機科學領域 Top 3 成就之一。反向傳播在網路深度方面具備線性時間複雜度,因而從計算成本的角度來看,它很難被打敗。許多 BPDL 演算法往往不如反向傳播,因為它們嘗試在更新機制中利用高效的最佳化機制,且具備額外的約束。

如果目標是構建生物學可信的學習機制,那麼 DNN 中的單元不應與生物神經元一一對應。

嘗試使用生物神經元模型模仿 DNN 是落後的,就像用人腦模擬 Windows 作業系統一樣

。這很難,而且人腦無法很好地模擬 Windows 系統。

我們反過來試一下呢:最佳化函式逼近器,以實現生物學可信的學習規則。這種方式較為直接:

使用模型神經元和突觸連線構建神經網路的生物學可信模型。神經元利用脈衝序列、頻率編碼或梯度實現互相通訊,並遵循任何「生物學可信」的約束。其引數需要訓練。

使用計算機輔助搜尋,為這些模型神經元設計生物學可信的學習規則。例如,將每個神經元的前向行為和區域性更新規則建模為基於人工神經網路的決策。

更新函式逼近器,使生物學模型生成期望的學習行為。我們可以透過反向傳播訓練神經網路。

用來尋找學習規則的函式逼近器的選擇是無關緊要的——我們真正在乎的是生物大腦如何學習像感知這樣的困難任務,同時遵循已知的限制條件,如生物神經元不把所有的啟用都儲存在記憶中,或者只使用區域性的學習規則。我們應該利用深度學習的能力找出優秀的函式逼近器,並以此來尋找優秀的生物學習規則。

「元學習」是另一種選擇?

「我們應該(人工地)學習如何以生物的方式學習」並非一個全新的觀點,但對於神經科學 + AI 社群來說,這一點還不夠明顯。元學習(學習如何學習)是近年來興起的一個領域,它給出了獲取能夠執行學習行為的系統的方法,該系統有超越梯度下降的潛力。如果元學習可以幫我們找到更加樣本高效或者更優秀、更魯棒的學習器,那它為什麼不能幫我們找到遵循生物學習約束的規則呢?其實,最近的幾項研究 [1, 2, 3, 4, 5] 已經探索了這一問題。你確實可以使用反向傳播來訓練一個優於普通反向傳播的獨立學習規則。

Eric Jang 認為,很多研究者之所以還沒理解這個觀點(即我們應該用元學習方法來模擬生物學可信的迴路),是因為目前算力還不夠強,無法同時訓練元學習器和學習器。要想制定元最佳化方案,我們還需要強大的算力和研究基礎設施,但 JAX 等工具的出現已經讓這一任務變得簡單得多。

真正的生物學純粹主義者可能會說,利用梯度下降和反向傳播尋找學習規則不是一種「進化上可信的學習規則」,因為進化明顯缺乏執行動態規劃甚至是梯度計算的能力。但如果使元學習器在進化上可信,這一點就能得到修正。例如,用來選擇優秀函式逼近器的機制其實根本不需要依賴反向傳播。相反,我們可以制定一個元 - 元問題,讓選擇過程本身遵守進化選擇的規則,但是選擇過程還是使用反向傳播。

所以,不要再給反向傳播賦予生物學意義了!

原文連結:

https://

blog。evjang。com/2021/02

/backprop。html