頻率派 vs 貝葉斯派—為什麼損失函式這樣設計

在剛學習機器學習時，你肯定有產生這樣的疑惑，為什麼損失函式是這樣設計的？為什麼偏偏是最小二乘法，交叉熵？L1正則化和L2正則化又有什麼區別？

我們下面將從

機率

角度，為這些損失函式的設計找到理論支撐。

下面將要介紹的是兩種學派：

貝葉斯派和頻率派

。在學習機器學習的過程中，應該聽說過很多次這兩個專業詞彙，我的建議是，剛開始學不用過於深究，這不會影響你學習各種模型，當你瞭解完很多模型演算法後，再回過頭來看貝葉斯派和頻率派，就會有種醍醐灌頂的感覺，你在每種模型上都可以找到它們的哲學思想、方法論。

首先要介紹一些概念，貝葉斯公式：

$P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)}$

。先驗機率指的是

$P(\theta)$

，似然機率指的是

$P(x|\theta)$

，後驗機率指的是

$P(\theta|x)$

。

頻率派 vs 貝葉斯派

兩者本身沒有孰對孰錯，是兩種不同的看待世界的方法論：

頻率派把模型引數看成

未知的定量

，用極大似然法MLE（一種引數點估計方法）求解引數，往往最後變成

最最佳化

問題。這一分支又被稱為統計學習。

極大似然法 MLE：

$\theta=argmaxlogP(x|\theta)$

貝葉斯派把模型引數看成

未知的變數（機率分佈）

，用最大化後驗機率MAP求解引數。

最大後驗法MAP：

$\theta=argmaxlogP(\theta|x)=argmaxlogP(x|\theta)P(\theta)$

其實最大化後驗機率還不算純粹的貝葉斯派，純粹的貝葉斯派是求出具體的後驗，難度很大，要進行積分，也就是要求出P（x）這一項，像蒙特卡洛方法、機率圖模型。

$P(\theta|x)=\frac{P(x|\theta)P(\theta)}{P(x)}=\frac{P(x|\theta)P(\theta)}{\int_{\theta}P(x|\theta)P(\theta)}$

可以看到兩者

最大的區別在於對引數的認知。

頻率派認為引數是常量，資料是變數；貝葉斯派則認為引數是變數，不可能求出固定的引數，資料是常量。

下面我們將從最小二乘法、交叉熵、L1正則化、L2正則化出發，來對這兩種思想做出詮釋。

1.最小二乘法

迴歸任務可以化為下式，其中y是真實的連續值，

$f^{w}(x)$

是預測的連續值，

$\varepsilon$

則是噪聲。

$y=f^{w}(x)+\varepsilon$

$f^{w}(x)=w^{T}x$

我們假設噪聲

$\varepsilon$

符合正態分佈，即

$\varepsilon\sim N(0,\sigma^{2})$

因此當我們給定w和x時，

$y|w,x\sim N(w^{T}x,\sigma^{2})$

得

$P(y|x,w)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y-w^{T}x)^{2}}{2\sigma^{2}})$

下面就用頻率派的思想，極大似然法MLE

$\begin{align} L(w)&=log(Y|X,w) \\&=log\prod(y_{i}|x_{i},w) \\&=\sum log(y_{i}|x_{i},w) \\&=\sum (log\frac{1}{\sqrt{2\pi}\sigma}-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma^{2}}) \end{align}$

最後，我們要求w，轉換為最最佳化問題。

$w=argmaxL(w)=argmax\sum-\frac{(y_{i}-w^{T}x_{i})^{2}}{2\sigma^{2}}=argmin\sum (y_{i}-w^{T}x_{i})^{2}$

至此我們證明了，最小二乘法就是噪聲符合正態分佈的極大似然法的數學形式。從機率角度給出了最小二乘法的理論支撐。我們發現頻率派，往往轉換為極大似然法問題，也就是最最佳化求極值問題，這也被稱為統計學習，像決策樹，支援向量機都有最最佳化思想，都屬於這一分支。

2。交叉熵

我們知道交叉熵用在分類任務上。以二分類為例，假設符合伯努利分佈，則

$P(y|x)=g(x)^{y}*(1-g(x))^{1-y}$

y就是真實的類別，取值為0或1。

$g(x)=sigmoid(w^{T}x)$

表示為1類的機率。

用極大似然法

$L(w)=\sum logP(y_{i}|w,x_{i})=\sum y_{i}log(g(x_{i}))+(1-y_{i})log(1-g(x_{i}))$

$w=argmaxL(w)=argmin\sum -y_{i}log(g(x_{i}))-(1-y_{i})log(1-g(x_{i}))$

這就是交叉熵的數學形式。

3.L2正則化、L1正則化

L2正則化，又被稱為嶺迴歸Ridge regression，是避免過擬合的有效手段。

以迴歸任務為例：

$y=f^{w}(x)+\varepsilon$

$f^{w}(x)=w^{T}x$

我們假設噪聲

$\varepsilon$

符合正態分佈，即

$\varepsilon\sim N(0,\sigma^{2}_{0})$

把x看成常量

，當我們給定w時，

$y|w\sim N(w^{T}x,\sigma^{2}_{0})$

得

$P(y|w)=\frac{1}{\sqrt{2\pi}\sigma_{0}}exp(-\frac{(y-w^{T}x)^{2}}{2\sigma^{2}_{0}})$

並且我們引入先驗，

假設引數w符合正態分佈

，即

$w\sim N(0,\sigma^{2}_{1})$

，因此

$P(w)=\frac{1}{\sqrt{2\pi}\sigma_{1}}exp(-\frac{||w||^{2}}{2\sigma^{2}_{1}})$

利用最大後驗法MAP：

$\begin{align} L(w)&=argmax p(w|y) \\&=argmax\frac{P(y|w)P(w)}{P(y)} \\&=argmaxlogP(y|w)P(w) \\&=argmaxlog(\frac{1}{\sqrt{2\pi}\sigma_{0}}\frac{1}{\sqrt{2\pi}\sigma_{1}})-\frac{(y-w^{T}x)^{2}}{2\sigma^{2}_{0}}-\frac{||w||^{2}}{2\sigma^{2}_{1}} \\&=argmin\frac{(y-w^{T}x)^{2}}{2\sigma^{2}_{0}}+\frac{||w||^{2}}{2\sigma^{2}_{1}} \\&=argmin((y-w^{T}x)^{2}+\frac{\sigma_{0}^{2}}{\sigma^{2}_{1}}||w||^{2} \end{align}$

一頓操作後，發現

L2正則化就是假設引數符合正態分佈的最大後驗法

的數學形式！同理可得

L1正則化是假設引數符合拉普拉斯分佈的最大後驗法

。

我們現在可以從機率角度解釋正則化到底在幹什麼了。正則化就是引入了先驗知識，我們知道世界上大多數事件是服從正態分佈的，像身高、體重、成績等等。因此我們假設引數也符合正態分佈。引入先驗知識有什麼好處呢，我們現在拋一枚硬幣，50次中有30次都是正面向上，問你拋這枚硬幣的機率分佈，這時你想起你人生中遇到的大多數硬幣都是均勻的，儘管資料顯示不均勻，你還是會認為這枚硬幣是均勻的。如果你是這麼想的，

那你就引入了先驗知識

。因此引入先驗知識在資料不足的時候有很大好處。

當然正則化的好處，我們還可以從矩陣可逆不可逆，特徵選擇等角度證明。

最後，看到這裡你不禁產生這樣的疑惑，最大後驗法也是轉換成最最佳化問題啊，跟頻率派有什麼區別嗎？對的，最大後驗法不是原汁原味的貝葉斯派，它是貝葉斯派的妥協，因為求積分

$\int_{\theta}P(x|\theta)P(\theta)$

太難了，所以最大後驗法是貝葉斯派向頻率派的妥協。

參考：機器學習［白板推導］

背後的哲學

頻率派認為模型引數是客觀存在的，它就在那裡，如果有一個全知全能神，就能告訴你引數值是多少，當資料量成千上萬時，我們可以不斷逼近那個真實的引數。

貝葉斯派認為認為一切機率都是主觀的，不存在客觀存在的機率。

在證明L2正則化時，你肯定想問為什麼假設引數的先驗分佈是正態分佈，沒錯，這就是主觀的，是主觀臆斷的。這也是頻率派常常抨擊貝葉斯派的一點，先驗分佈該如何獲取？

貝葉斯派是這樣辯護的：先驗分佈如何獲取不重要，重要的是，我們可以不斷假設，不斷修改。並且先驗分佈不是完全瞎猜的，而是基於我之前的人生經驗，比如太陽東昇西落，硬幣總是50%向上。

貝葉斯派中最關鍵的是貝葉斯公式，但貝葉斯到死都沒有窺見貝葉斯公式的美，直到後人將它發揚光大。在它的歷史長河中，很長一段時間被頻率派壓制，大家可以回憶一下自己的高中課本，講的全是古典概型（即頻率派）。直到計算機的發明，貝葉斯派迎來了曙光，如今被廣泛應用在機器學習，人工智慧領域。

貝葉斯派是真的博大精深，我無法窺探它的全貌，推薦一本書《貝葉斯的博弈-數學、思維與人工智慧》，是一本科普讀本，作者非常淵博，從哲學、數學、歷史、物理、計算機、資訊理論深刻地講述了貝葉斯主義。書中反駁了頻率派的p值檢驗，併為貝葉斯派的引入先驗知識進行辯護。書中講到：甚至可以說，不知不覺中，你都沒有意識到自己就是一個貝葉斯主義者。

頻率派 vs 貝葉斯派—為什麼損失函式這樣設計

如何理解信用的含義

如何分辨天空中的星星是恆星還是行星？金星火星木星，牛郎織女星都很亮啊！

隨便看看

房子裝修，決定牆上刷乳膠漆，四面牆刷色，牆頂還需要刷色嗎？

SNH48盧靜身高？

五菱車載音樂是什麼格式？

我的包包洗了後有股臭味是怎麼回事？

頻率派 vs 貝葉斯派—為什麼損失函式這樣設計

如何理解信用的含義

如何分辨天空中的星星是恆星還是行星？金星火星木星，牛郎織女星都很亮啊！

猜你喜歡

什麼叫耳道共振?成人和兒童的耳道大約有多長?

祥菱m2國六說明書？

深度學習中常見的最佳化方法（from SGD to AMSGRAD）和正則化技巧

隨便看看

房子裝修，決定牆上刷乳膠漆，四面牆刷色，牆頂還需要刷色嗎？

SNH48盧靜身高？

五菱車載音樂是什麼格式？

我的包包洗了後有股臭味是怎麼回事？