Regularization:在現有Features不變情況下,降低部分不重要Features的影響力。這個方法有助於有很多Features且每個Features都有貢獻的Neural Network避免Overfitting。

Regularization不是新鮮的詞,我這裡主要記錄其在神經網路中的應用。

筆記 | 什麼是Regularization

複雜模型的overfitting問題

第一次聽Regularization的時候,總會和正則表達聯絡在一起,如 @Star Folding 所說,Regularization就是向你的模型加入某些規則,加入先驗,縮小解空間,減小求出錯誤解的可能性。而正則化這個詞,的確讓初學者不知道這個是什麼。

原理是這樣的:

在cost function後面加一個懲罰項(對某些引數做限制),如果一個權重太大,將導致Cost過大,因此在反向傳播後就會對這個權重進行懲罰,使保持在一個較小的值。

筆記 | 什麼是Regularization

常見的是L1 Regularization 和 L2 Regularization

原諒我還是得用李宏毅老師的PPT

筆記 | 什麼是Regularization

在用L1 Regularization後的Cost function經過微分後

用L1 Regularization的話,相當於每次在更新權重的時候,如果原來的

w^{t}

是正的,就減去上圖劃線的項,如果是負的,就加上劃線的項,於此一來就相當於每次更新都在減小權重。

筆記 | 什麼是Regularization

在用L2 Regularization後的Cost function經過微分後

也就是對於L2 Regularization,相當於每次在權重更新的時候,都先將上一次的權重先乘

1-\eta\lambda

,類似於0。999之類的,所以每次都會越來越靠近0(但不會真的都變成0,因為還有後面的微分)。

這樣每次都減一點減一點的方式,就是Weight Decay了。

最後,來看一個在Regression中的Regularization影片,講得不錯。

筆記 | 什麼是Regularization

Regularization

https://www。zhihu。com/video/1091373678788460544

參考資料:

[1]:Machine Learning學習日記 — Coursera篇 (Week 3。4):The Problem of Overfitting, Cost Function, Regularized Linear Regression, Regularized Logistic Regression

[2]:機器學習中常常提到的正則化到底是什麼意思?

[3]:Difference between L1 and L2 regularization, implementation and visualization in Tensorflow

[4]:

https://

murphymind。blogspot。com

/2017/05/machine。learning。regularization。html