【簡讀】Stationary Behavior of Constant Stepsize SGD-type Algorithms: An Asymptotic Characterization
20211112 第90篇
arxiv。org/pdf/2111。06328。pdf
作者:Zaiwei Chen, Shancong Mou, Siva Theja Maguluri
Affiliation: Georgia Institute of Technology
本文屬於最佳化方向。我們知道,在大規模最佳化問題和一眾機器學習任務中,我們最常用到的最佳化演算法就是SGD,如果從一個大類來看,這樣的方法屬於 stochastic approximation (SA),它具備如下的一般形式:
其中,
是 noise(即stochastic的部分),在沒有噪聲的情況下,我們透過不停地迭代,最終希望找到一個滿足
的點。由於本文研究的是常數步長條件下的SGD,所以在這一設定下
,這篇文章研究的是SGD型別演算法在收斂的過程中的 trajectory,假設最終演算法收斂到
,那麼作者們希望描述的是
在
趨於無窮時的分佈,從而可以對這一演算法(或者說dynamics)的極限分佈有一個清晰的認識,這裡我們需要一個 scaler
,因為它可能與 noise level 有關。於是,作者們希望能有一個合適的 scaler function
,從而建立一個 centered scaled iterate
到一個與
無關的隨機變數
的弱收斂,進一步,我們讓步長
,再建立一個
向
的弱收斂。清晰起見,我引用一張文章裡的原圖。
圖片摘自原文
本文的貢獻就在於實現瞭如上圖所示的兩步收斂。
(1) 作者們提出了一套新的框架,可以在下面的三種情形下確定隨機變數
所對應的分佈。
SGD, 目標函式光滑並且強凸 (strongly convex)
Linear stochastic approximation with Hurwitz matrix
Stochastic Approximation solving a contractive operator(壓縮對映)
最終的隨便變數
是一個均值為0的 Gaussian distribution,其 covariance matrix 滿足一個特定的 Lyapunov equation。其中,scaler function
。
(2) 對於更一般的 stochastic approximation 框架,作者們發現 scaler function 並不一定是
而且極限分佈也並不一定符合高斯分佈。作者們提出了 scaler function 所需要滿足的必要條件:
並且
不恆為0或恆為無窮。這相當於給了我們的 scaler function 一個上限和下限。