​1月份有關機器學習和神經科學研究領域的重大論文可謂這一篇Nature主刊的文章, 一出頭便引爆朋友圈:

多巴胺如何實現分散式強化學習-Nature最新文章解讀

這篇署名作者包含了deepmind 創始人Demis Hassabis的文章,到底意義在哪裡?我們從多巴胺和強化學習的研究歷史中娓娓道來一窺究竟。

1 強化學習基本概念

讓機器來決策,首先體現在如何模仿人類的決策。對於決策這個問題, 對於人類是困難的, 對於機器就更難。而強化學習, 就是一套如何學習決策的方法論。

強化學習最初的體現就是試錯學習, 因此理解強化學習的第一個層次就是如何透過一個簡單的機制在不確定的環境下進行試錯, 掌握有用的資訊。

多巴胺如何實現分散式強化學習-Nature最新文章解讀

在這個框架下,我們需要掌握的只有兩個基本要素,一個是行為,一個是獎勵。在這個級別的強化學習,就是透過獎勵,強化正確的行為。

所謂行為,指從有限的選項裡選一個最佳的, 所謂獎勵,指選哪一個都有正確的可能,但是我們預知哪一個最優,能知道的只是選擇了這個行為之後,環境給的反饋。

如何從根據獎勵到學習決策, 這裡的思想在於最大化獎勵。首先獎勵是未來的事情而非當下的事情,因此我們用獎勵的期望來替代獎勵。每個行為的選擇都可以使得拿到獎勵的期望變大或變小, 學習的過程就是使得每個決策的改進都向著提高獎勵期望的方向即可。

2 強化學習的心理學與神經科學基礎

強化學習的理論是典型的心理學和計算科學交叉的產物, 強化學習之父sutton & button 建立了整個時間差分學習的理論(TD learning), 並且用一套完整的數學公式表達這個過程(Rescorla and Wagner formula), 而之後演繹出非常完整的TD學習公式, 稱為整個model free reinforcement Learning的根據。

多巴胺如何實現分散式強化學習-Nature最新文章解讀

這套數學理論的核心是正確行為的核心在於正確預測未來獎勵, 雖然對未來的預測總是不準確的, 我們卻可以隨著證據的增加用迭代的方法逼近正確。新的預測和之前的預測的差距被稱為TD誤差(我們可以稱之為超乎預料的量)。

強化學習的理論指出, 雖然絕對的預測不可得到, 但當下一步和當下步的獎勵預測之差逐步趨近於零, 我們就達到了強化學習的最優狀態。因此, 最終學習的直接目標不是獎勵最大, 而是最小預測誤差。這個理論可以極好的解釋一級和二級條件反射的心理學現象(透過值函式建立一系列刺激和最終獎勵的聯絡, 例如狗聽搖鈴分泌唾液是因為獎勵的預期)。

有了TD誤差,如何最佳化決策(行為)呢?畢竟它只是對獎勵的估計啊 。但是不要忘了預測是行為的基礎, 有關行為的最佳化,強化學習分成兩種不同的實現方法, 一種是基於這個TD誤差的估計直接修改不同行為的機率, 好比當上一步的行為導致現實低於預期, 那個那個行為的機率就要減小, 反之亦然(policy gradient, actor-critic)。

另一個方法是直接把行為本身當作預測函式的一個變數, 這樣直接每次直接找到對應最大預期的行為就可以了, 該方法把行為控制放到了預測裡(Q learning)。這兩種方法構成強化學習的兩大基本方法。

具體Q學習的計算公式可以由TD誤差的更新公式直接匯出,又稱為Bellaman 最佳化公式, 這個公式告訴我們可以透過每一步動態的迭代Q(在特定行為下獎勵的期望),得到真實的期望。

多巴胺如何實現分散式強化學習-Nature最新文章解讀

如果人或動物真的在進行類似剛剛歸納的強化學習, 那麼它必然有其依賴實現的神經基礎。那麼是什麼樣的神經功能能夠如何實現實現剛剛說的演算法了。什麼是期望(預測)誤差在大腦中的表現形式了?

一種主流觀點認為多巴胺神經元能夠代言這個角色。很多人認為多巴胺是代表快樂的神經遞質, 而事實上, 神經科學家發現更準確的描述是它其實傳遞的是剛剛說的TD誤差, 也就是一種對未來獎勵的預計和之前的心理基準的比較。也是為什麼真正的快樂總是在於進步而非獎勵本身,當我們得到一個超乎預期的結果, 會特別高興, 反之沮喪。

Niv, Yael, Michael O。 Duff, and Peter Dayan。 “Dopamine, uncertainty and TD learning。”

Behavioral and brain Functions

1。1 (2005): 6。

經典的強化學習理論告訴我們要追求快樂, 獎勵的絕對值沒有用處,我們要的是對獎勵相對變化的預期。一個山村少年透過努力進入大學租房到買房定居, 其過程中的快樂總值將遠遠大於一步到位的富二代, 上帝在這裡終於公平了。這裡的另一點啟示是降低你的期望, 期望越高失望越大此言不虛,期望低才有利於收到一些正向的多巴胺訊號。

3 分散式的強化學習

上述經典的強化學習理論有一個致命問題,那就是沒有涵蓋對未來不確定性的預期。強化學習所作的估值運算本質上是對沒有發生的事情的預測, 那麼必然的涉及不確定性, 可是在剛剛的公式裡, 不確定性屬於缺席的狀態。

我們可以聯想一下人類的決策過程, 假如某人可以選擇有風險的賭局(在100元和一無所獲之間下注,兩種情況各有50%的機率), 或者可選擇一個可以確定得到收益的穩定投資。如果他寧可選擇一個低於五十元收益的穩定投資,也不願選擇有風險的賭局(賭局的期望值是五十元),因為大部分人是風險厭惡的, 克服這個心理就要支付一定的對價,當然也有少量瘋狂賭徒此選擇偏好是反過來的。

這個實驗說明其實不光是未來獎勵的期望而是整個分佈, 不確定性的大小會影響我們的決策。 具體到學習演算法, 它的意義在於我們不僅需要估計期望, 更需要估計整個分佈函式,把它當成我們的預測目標。

多巴胺如何實現分散式強化學習-Nature最新文章解讀

不確定的獎勵通常用分佈函式描述, 比如有時候獎勵處於雙峰分佈的狀態

最初應用到這一思想的依然不是神經科學領域, 而是最積極尋求改變的機器學習領域。

多巴胺如何實現分散式強化學習-Nature最新文章解讀

我們可以把Q學習中關於Q值的計算公式的的Q值和獎勵直接替換成一個分佈函式, 並得到貝拉曼最佳化公式的分佈函式版。 注意, 當代數變數被替換成一個分佈函式時候, 和這些變數有關的基本算符將變成運算元形式, 這種改變保證了所有的基本運算都可以順利的被繼承下來,而方程的形式不變。具體運算元在幹什麼, 我們可以把它理解為對一個分佈函式進行的操作,也就是對一個函式進行的變換, 如下圖所示。

多巴胺如何實現分散式強化學習-Nature最新文章解讀

多巴胺如何實現分散式強化學習-Nature最新文章解讀

對分佈函式進行的各種代數運算, (a)某種策略下未來總獎勵的分佈 (b)加入貼現因子,相當於整個分佈向0塌縮 (c)根據當下實際收到的獎勵更新未來總獎勵, 平移 (d)根據單元格進行“重整化”,方便下一步操作

利用這個演算法, 我們可以得到一個最終穩定的Q分佈,而非Q值。下圖表示了一系列當紅強化學習演算法在Atari Game的成績, 我們發現2017年以後, 最領先的演算法均是這種基於分散式設計的演算法。

4 分散式強化學東西演算法的生物實現

剛剛講了一大堆分佈, 運算元, 但是生物的大腦又不是數學家設計的, 它們真的也進行了類似如此複雜的運算嗎?這就是這一次Deepmind 刷屏文章的發力點所在。它用一個其實大家已經已知的生物學事實, 完美的解決了這個看起來不可能實現的目標。

與剛剛說的數學家設計相反,生物用它自身的多樣和“混亂” 實現了對真實世界不確定性(分佈函式)的計算。這裡的思想和“蜂群”“蟻群”演算法有些類似, 群體中由目標相同, 但是引數有差異的個體組成, 這個時候, 從群體level得到的訊號, 就可以解碼出世界本身的不確定性。起初科學家多半把這種群體中個體的區別當作一種噪聲, 直到我們從適應真實世界的不確定角度解讀。

具體怎麼實現的?如下圖,我們看到不同的多巴胺細胞, 如同下圖a中V, 和delta組成的一對圓圈,如果這些細胞的引數都相同, 就如同圖a, 每個細胞都以同樣的方法在計算未來獎勵的期望。而一旦每個細胞的引數發生變化, 具體體現在加入一個對正向和負向TD誤差迭代的不對稱性(傳統理論是一樣的), 這導致了不同的細胞所計算的V函式不同, 因此對TD誤差的reverse point也不同(也就是TD誤差為正或為負需要的V值)。

這個不對稱性, 翻譯成通俗的語言,就是樂觀或者悲觀, 所謂的樂觀, 就是說對正向的TD誤差更敏感, 而悲觀, 則反過來。一個群體裡有樂觀的細胞和悲觀的細胞組成, 就體現在它們的這種不對稱性以及其導致的reverse point的不同,對應同一個獎勵事件, 樂觀和悲觀細胞給出的TD訊號是不同的(注意此處的樂觀細胞反而更容易給出一個TD誤差的負值因為它們本身的期望就更高)

多巴胺如何實現分散式強化學習-Nature最新文章解讀

單一性質的多巴胺神經元vs多元化的多巴胺神經元, 區別體現在對正向TD誤差和負向TD誤差的不對稱性上, 不同細胞這種不對稱性不同

最終的結果, 是每個細胞都包含了真實獎勵的部分資訊, 而整個群體可以同時編碼整個獎勵的分佈函式, 包含峰位數, 方差, 和均值等等資訊。這裡的具體方法是不同的細胞實質編碼了期望的峰位數(由對正負TD誤差的不確定性alpha+, alpha-決定), 而把整個群體加在一起, 就可以得到分佈函式。

多巴胺如何實現分散式強化學習-Nature最新文章解讀

根據多樣化的多巴胺細胞重構獎勵的分佈

這一次,AI理論指導了生物發現, Deepmind根據這個想法測量了真實的多巴胺神經細胞, 也觀測到了性質相同的現象。也就是不同細胞對正向和負向TD誤差的不確定性, 以及它導致的可觀測的訊號reversal point的不同。

多巴胺如何實現分散式強化學習-Nature最新文章解讀

不對稱性導致的reverse point不同

多巴胺如何實現分散式強化學習-Nature最新文章解讀

不對稱導致的TD誤差不同reverse point 被實驗驗證

五 對多巴胺的通俗誤讀與我們應該做的思考

對多巴胺的理解, 網上充滿了各種各樣的解讀, 大部分人給它的定義是快樂激素,也就是那種可以編碼食色性的細胞, 這種細胞瘋狂放電,那就是人磕了藥或者做著一些特別過癮的事。

禁慾主義者通常認為我們需要戒斷多巴胺讓我們變得更聰明。而縱慾主義者則視其為生活激情的來源。事實上這兩種想法都更多迎合了早期研究對多巴胺的理解,而偏離了它的學習本質。

事實上多巴胺是“學習的神經遞質” 而非“慾望的激素” 。 更準確的說, 它和大腦的功能本質-預測編碼直接相關。我們的神經系統不停的預測此刻的行為和下一刻獎勵的關係, 當這種預測出了錯, 就要透過一個神經遞質來警告所有做出預測的神經元改變你們的預期, 它就是多巴胺。

而根據這篇Deepmind的Nature論文表明,不同的細胞對未來的預期不要越一致, 而是相對保持不一致才更好, 細胞也要分為左中右三派, 最後的總體表現才更客觀, 更能戰勝真實世界的不確定性。

最後說一個題外話,對於剛剛說的禁慾和縱慾問題, 我個人更加支援的是引導慾望。既然多巴胺編碼的是超出或不足預期的部分, 當整個世界所有的預期皆為已知, 那麼即使我們所擁有的再多也不足以讓我們快樂。因此,若要人生有趣, 最重要的是不停加入新的探索項, 永葆好奇心,並在探索和發現中建立多巴胺迴路, 才可不太快進入一個飽和區間, 這也才是教育的本質之所在。

更多閱讀