在剛學習機器學習時,你肯定有產生這樣的疑惑,為什麼損失函式是這樣設計的?為什麼偏偏是最小二乘法,交叉熵?L1正則化和L2正則化又有什麼區別?

我們下面將從

機率

角度,為這些損失函式的設計找到理論支撐。

下面將要介紹的是兩種學派:

貝葉斯派和頻率派

。在學習機器學習的過程中,應該聽說過很多次這兩個專業詞彙,我的建議是,剛開始學不用過於深究,這不會影響你學習各種模型,當你瞭解完很多模型演算法後,再回過頭來看貝葉斯派和頻率派,就會有種醍醐灌頂的感覺,你在每種模型上都可以找到它們的哲學思想、方法論。

首先要介紹一些概念,貝葉斯公式:

P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)}

。先驗機率指的是

P(\theta)

,似然機率指的是

P(x|\theta)

,後驗機率指的是

P(\theta|x)

頻率派 vs 貝葉斯派

兩者本身沒有孰對孰錯,是兩種不同的看待世界的方法論:

頻率派把模型引數看成

未知的定量

,用極大似然法MLE(一種引數點估計方法)求解引數,往往最後變成

最最佳化

問題。這一分支又被稱為統計學習。

極大似然法 MLE:

\theta=argmaxlogP(x|\theta)

貝葉斯派把模型引數看成

未知的變數(機率分佈)

,用最大化後驗機率MAP求解引數。

最大後驗法MAP:

\theta=argmaxlogP(\theta|x)=argmaxlogP(x|\theta)P(\theta)

其實最大化後驗機率還不算純粹的貝葉斯派,純粹的貝葉斯派是求出具體的後驗,難度很大,要進行積分,也就是要求出P(x)這一項,像蒙特卡洛方法、機率圖模型。

P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)}=\frac{P(x|\theta)P(\theta)}{\int_{\theta}P(x|\theta)P(\theta)}

可以看到兩者

最大的區別在於對引數的認知。

頻率派認為引數是常量,資料是變數;貝葉斯派則認為引數是變數,不可能求出固定的引數,資料是常量。

下面我們將從最小二乘法、交叉熵、L1正則化、L2正則化出發,來對這兩種思想做出詮釋。

1.最小二乘法

迴歸任務可以化為下式,其中y是真實的連續值,

f^{w}(x)

是預測的連續值,

\varepsilon

則是噪聲。

y=f^{w}(x)+\varepsilon

f^{w}(x)=w^{T}x

我們假設噪聲

\varepsilon

符合正態分佈,即

\varepsilon\sim N(0,\sigma^{2})

因此當我們給定w和x時,

y|w,x\sim N(w^{T}x,\sigma^{2})

P(y|x,w)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-w^{T}x)^{2}}{2\sigma^{2}})

下面就用頻率派的思想,極大似然法MLE

\begin{align} L(w)&=log(Y|X,w) \\&=log\prod(y_{i}|x_{i},w) \\&=\sum log(y_{i}|x_{i},w) \\&=\sum (log\frac{1}{\sqrt{2\pi}\sigma}-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma^{2}}) \end{align}

最後,我們要求w,轉換為最最佳化問題。

w=argmaxL(w)=argmax\sum-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma^{2}}=argmin\sum (y_{i}-w^{T}x_{i})^{2}

至此我們證明了,最小二乘法就是噪聲符合正態分佈的極大似然法的數學形式。從機率角度給出了最小二乘法的理論支撐。我們發現頻率派,往往轉換為極大似然法問題,也就是最最佳化求極值問題,這也被稱為統計學習,像決策樹,支援向量機都有最最佳化思想,都屬於這一分支。

2。交叉熵

我們知道交叉熵用在分類任務上。以二分類為例,假設符合伯努利分佈,則

P(y|x)=g(x)^{y}*(1-g(x))^{1-y}

y就是真實的類別,取值為0或1。

g(x)=sigmoid(w^{T}x)

表示為1類的機率。

用極大似然法

L(w)=\sum logP(y_{i}|w,x_{i})=\sum y_{i}log(g(x_{i}))+(1-y_{i})log(1-g(x_{i}))

w=argmaxL(w)=argmin\sum -y_{i}log(g(x_{i}))-(1-y_{i})log(1-g(x_{i}))

這就是交叉熵的數學形式。

3.L2正則化、L1正則化

L2正則化,又被稱為嶺迴歸Ridge regression,是避免過擬合的有效手段。

以迴歸任務為例:

y=f^{w}(x)+\varepsilon

f^{w}(x)=w^{T}x

我們假設噪聲

\varepsilon

符合正態分佈,即

\varepsilon\sim N(0,\sigma^{2}_{0})

把x看成常量

,當我們給定w時,

y|w\sim N(w^{T}x,\sigma^{2}_{0})

P(y|w)=\frac{1}{\sqrt{2\pi}\sigma_{0}}exp(-\frac{(y-w^{T}x)^{2}}{2\sigma^{2}_{0}})

並且我們引入先驗,

假設引數w符合正態分佈

,即

w\sim N(0,\sigma^{2}_{1})

,因此

P(w)=\frac{1}{\sqrt{2\pi}\sigma_{1}}exp(-\frac{||w||^{2}}{2\sigma^{2}_{1}})

利用最大後驗法MAP:

\begin{align} L(w)&=argmax p(w|y) \\&=argmax\frac{P(y|w)P(w)}{P(y)} \\&=argmaxlogP(y|w)P(w) \\&=argmaxlog(\frac{1}{\sqrt{2\pi}\sigma_{0}}\frac{1}{\sqrt{2\pi}\sigma_{1}})-\frac{(y-w^{T}x)^{2}}{2\sigma^{2}_{0}}-\frac{||w||^{2}}{2\sigma^{2}_{1}} \\&=argmin\frac{(y-w^{T}x)^{2}}{2\sigma^{2}_{0}}+\frac{||w||^{2}}{2\sigma^{2}_{1}} \\&=argmin((y-w^{T}x)^{2}+\frac{\sigma_{0}^{2}}{\sigma^{2}_{1}}||w||^{2} \end{align}

一頓操作後,發現

L2正則化就是假設引數符合正態分佈的最大後驗法

的數學形式!同理可得

L1正則化是假設引數符合拉普拉斯分佈的最大後驗法

我們現在可以從機率角度解釋正則化到底在幹什麼了。正則化就是引入了先驗知識,我們知道世界上大多數事件是服從正態分佈的,像身高、體重、成績等等。因此我們假設引數也符合正態分佈。引入先驗知識有什麼好處呢,我們現在拋一枚硬幣,50次中有30次都是正面向上,問你拋這枚硬幣的機率分佈,這時你想起你人生中遇到的大多數硬幣都是均勻的,儘管資料顯示不均勻,你還是會認為這枚硬幣是均勻的。如果你是這麼想的,

那你就引入了先驗知識

。因此引入先驗知識在資料不足的時候有很大好處。

當然正則化的好處,我們還可以從矩陣可逆不可逆,特徵選擇等角度證明。

最後,看到這裡你不禁產生這樣的疑惑,最大後驗法也是轉換成最最佳化問題啊,跟頻率派有什麼區別嗎?對的,最大後驗法不是原汁原味的貝葉斯派,它是貝葉斯派的妥協,因為求積分

\int_{\theta}P(x|\theta)P(\theta)

太難了,所以最大後驗法是貝葉斯派向頻率派的妥協。

參考:機器學習[白板推導]

背後的哲學

頻率派認為模型引數是客觀存在的,它就在那裡,如果有一個全知全能神,就能告訴你引數值是多少,當資料量成千上萬時,我們可以不斷逼近那個真實的引數。

貝葉斯派認為認為一切機率都是主觀的,不存在客觀存在的機率。

在證明L2正則化時,你肯定想問為什麼假設引數的先驗分佈是正態分佈,沒錯,這就是主觀的,是主觀臆斷的。這也是頻率派常常抨擊貝葉斯派的一點,先驗分佈該如何獲取?

貝葉斯派是這樣辯護的:先驗分佈如何獲取不重要,重要的是,我們可以不斷假設,不斷修改。並且先驗分佈不是完全瞎猜的,而是基於我之前的人生經驗,比如太陽東昇西落,硬幣總是50%向上。

貝葉斯派中最關鍵的是貝葉斯公式,但貝葉斯到死都沒有窺見貝葉斯公式的美,直到後人將它發揚光大。在它的歷史長河中,很長一段時間被頻率派壓制,大家可以回憶一下自己的高中課本,講的全是古典概型(即頻率派)。直到計算機的發明,貝葉斯派迎來了曙光,如今被廣泛應用在機器學習,人工智慧領域。

貝葉斯派是真的博大精深,我無法窺探它的全貌,推薦一本書《貝葉斯的博弈-數學、思維與人工智慧》,是一本科普讀本,作者非常淵博,從哲學、數學、歷史、物理、計算機、資訊理論深刻地講述了貝葉斯主義。書中反駁了頻率派的p值檢驗,併為貝葉斯派的引入先驗知識進行辯護。書中講到:甚至可以說,不知不覺中,你都沒有意識到自己就是一個貝葉斯主義者。