本文介紹資訊幾何最佳化(Information geometric optimization, IGO), 隨機最佳化,和進化策略(Evolution Strategies),是這個回答知乎使用者:資訊幾何學國外有什麼厲害的組在研究呢?的補充和完善,並增加了隨機最佳化以外的一些內容。

資訊幾何把某一類機率分佈的整體看成一個流形(稱為統計流形),機率分佈之間的Fisher information matrix可以用作流形上黎曼度量。Fisher 資訊矩陣是分佈之間KL 散度的二階近似。流形上最速下降方向是由黎曼梯度/自然梯度給出(可以簡單理解成用一個正定矩陣乘以普通梯度進行旋轉和放縮)。

資訊幾何最佳化

IGO 的基本思想是首先將一個最佳化函式轉換成一個分佈上的期望,分佈的引數構成一個流形,在這個流形上對分佈引數做自然梯度下降,用隨機取樣來近似自然梯度,達到無梯度最佳化的目的(不使用目標函式本身的梯度)。

具體來說,對於最佳化目標函式

f(x)

,考慮函式在機率分佈

p_{\theta}

上的期望

J(\theta) = {E}_{\theta }[f(x)]=\int f(\mathbf{x}) p_{\theta}(\mathbf{x})dx.

這樣原來的目標函式就轉化成了流形

S=\{ p_{\theta} \}

上的目標函式。流形上的最速下降方向是由自然梯度給出

{\tilde{\nabla}} J = F_{\theta }^{{-1}} \nabla _{\theta } E_{\theta}[f(x)]

其中

F_{\theta }

是 Fisher 資訊矩陣。使用 trace-trick,上式可以寫成

{\tilde{\nabla}}J= F_{\theta }^{{-1}} E_{\theta} [f(x)\nabla_{{\theta}}\ln p_{{\theta}}(x)]

等式右邊涉及兩個因子需要確定,即資訊矩陣

F_{\theta }

和積分項

E_{\theta} [f(x)\nabla_{{\theta}}\ln p_{{\theta}}(x) ]

。由於x本身是透過在

p_{\theta}

上取樣得到的,這兩項都可以透過樣本估計得到。這樣就得到一個對

\theta

的迭代最佳化演算法。

在一些比較特殊的分佈上,這兩項都能很好表示出來。比如在正態分佈上,如果以均值

m

和協方差矩陣

C

為引數(這裡有一個從函式值到權值的變化,後面單獨寫一下解釋),有

\mathbf{m}^{t+1} = \mathbf{m}^{t} + \eta \sum_{i=1}^{N}w_i (x_i- {m}^{t})

\mathbf{C}^{t+1} = \mathbf{C}^{t} + \eta \sum_{i=1}^{N} w_i((\mathbf{x}_i - \mathbf{m}^{t})(\mathbf{x}_i - \mathbf{m}^{t})^T - \mathbf{C}^{t} )

這實際是CMA-ES 中的rank-

\mu

更新。使用正態分佈的IGO實際上就是進化策略(Evolution Strategies, ES)。 這個方法能統一很多演算法,如CMA-ES

(\eta <1)

, EDA

(\eta = 1)

,CEM等。如果使用不同的機率分佈,或者使用不同的引數表示,從上面能得到一批新的演算法 —— 這些通常被歸類為進化演算法,不過實際上可以完全脫離進化那一套語言,僅僅使用自然梯度-隨機近似就能得到。

2。 一些相關工作總結

這方面的主要結果有:

Natural Evolution Strategies

Information-Geometric Optimization Algorithms: A Unifying Picture via Invariance Principles

Theoretical Foundation for CMA-ES from Information Geometry Perspective

Convergence Analysis of Evolutionary Algorithms That Are Based on the Paradigm of Information Geometry

Information Geometry of Gaussian Distributions in View of Stochastic Optimization。

第一篇的是Deep Mind 做的,使用自然梯度推導自然進化策略(natural evolution strategies, NES)。最初的工作發在2008 CEC,2009 ICML,和2010 GECCO上。第二作者Tom Schaul是J¨urgen Schmidhuber的學生。順便說一下,他的博士論文裡面有單獨一章是用CMA-ES做一個小規模(7x7和9x9)的圍棋應用,那是在2011年,而他的名字出現在AlphaGo那篇論文的致謝部分(2016年)。所以我懷疑AlphaGo裡面可能是用了相關的方法的。

第二和第三篇主要是法國Inria的Tao組N。 Hansen, A。 Auger 和日本的Akimoto做的,相比前面的NES,IGO考慮了更多的不變性。這篇論文分析了離散的迭代對連續的IGO-flow微分方程的偏離,並從不同的步長設定統一了CMA-ES,EMNA。第一作者Yann Ollivier做過不少自然梯度最佳化神經網路方面的工作。

第四篇是在前面基礎上分析演算法的收斂速率的(實際分析的是流形上的自然梯度流的微分方程),指出這類演算法能線性收斂(這篇文章裡的推導有點錯誤,不過最後結論還是能成立)。這裡最主要的結論是上面的

C_t \simeq H^{-1} e^{-\gamma t}

, 其中 H是Hessian矩陣,即協方差矩陣收斂到Hessian的逆,並且收斂速率是(指數)線性的。值得注意的是,這裡的收斂速率是

\gamma \propto \frac{1}{\sqrt{n}}

,但是一般演算法中我們都只觀察到

\gamma \propto \frac{1}{{n}}

,這裡有巨大的gap需要解釋。

第五篇是Luigi Malagò關於正態分佈流形上的在不同引數下一些資訊幾何計算(Amari那本書上只計算了單變數的情形)。他在資訊幾何和使用自然梯度的隨機最佳化方面發過很多論文(很多集中在離散分佈上),把這個方法稱為 stochastic relaxation。

3。 矩陣流形上的最佳化

與此關聯的還有一些不能完全歸結到資訊幾何,但是又非常相關的,就是矩陣流形上的最佳化。矩陣可以和分佈對應起來。矩陣最佳化問題通常來自等式約束,例如將某個矩陣約束為正交矩陣,這實際上是將搜尋空間限制在SO(n)上。列舉兩個最相關的

Optimization Algorithms on Matrix Manifolds

Extended Hamiltonian Learning on Riemannian Manifolds: Theoretical Aspects

第二篇實際上是兩篇文章的理論部分,後面還有一個數值部分。作者 Simone Fiori是義大利人,這個工作是把 共軛梯度——動量項——二階微分方程做到了流形上,我非常喜歡這篇文章的做法。不多要把它做到統計流形上進而設計高效的演算法似乎不容易。一個相關工作見Black-box optimization using geodesics in statistical manifolds

4。 一點兒個人看法:

這些裡面雖然提到資訊幾何,但實際上僅僅止步於自然梯度這一層,並沒有更深層次的使用資訊幾何的概念(如alpha-聯絡和曲率等)。大部分打著資訊幾何的旗號的,都僅僅用到自然梯度這個層面,而幾何裡面核心的概念如聯絡,曲率似乎都很少能用到具體的應用問題上。把問題抽象出來後,推導到了曲率,卻很難再回到原問題給這些概念一個直觀解釋。

ES本身是比較成熟的領域了,基本上可以算是進化計算(重複強調一遍,ES可以脫離進化那一套語言)裡最為數學化,演算法成熟度最高,演算法分析最完整,並且效果也最好的方法(之一)。用微分方程的方法來分析隨機最佳化方法的收斂性和收斂速率是一個很好的問題。

把最佳化和微分方程聯絡起來是一種常見的做法,但推廣到統計流形和矩陣流形上的時候會有不少困難,尤其是流形本身可能還是非完備的時候。如果考慮Nesterov方法,是不是可能有更好的結果。

5。 補充一點隨機最佳化以外的方面,掛一漏萬,僅供參考。

自然梯度可以看成是一種二階方法的近似, Fisher matrix是Hessian矩陣的近似New insights and perspectives on the natural gradient method。

使用資訊幾何的方法來推導擬牛頓法A Bregman extension of quasi-Newton updates I: an information geometrical framework 這個和P。 Hennig 之前用Bayes方法得到擬牛頓法的工作直接相關,並且更加直接明瞭 Quasi-Newton Methods: A New Direction

關於資訊幾何在神經網路方面的應用和分析,推薦一下國內 羅四維老師的大規模人工神經網路理論基礎 (豆瓣),時間比較早2004年。

關於資訊幾何的介紹資訊幾何理論與應用研究進展,資訊幾何及其應用