在剛學習機器學習時,你肯定有產生這樣的疑惑,為什麼損失函式是這樣設計的?為什麼偏偏是最小二乘法,交叉熵?L1正則化和L2正則化又有什麼區別?
我們下面將從
機率
角度,為這些損失函式的設計找到理論支撐。
下面將要介紹的是兩種學派:
貝葉斯派和頻率派
。在學習機器學習的過程中,應該聽說過很多次這兩個專業詞彙,我的建議是,剛開始學不用過於深究,這不會影響你學習各種模型,當你瞭解完很多模型演算法後,再回過頭來看貝葉斯派和頻率派,就會有種醍醐灌頂的感覺,你在每種模型上都可以找到它們的哲學思想、方法論。
首先要介紹一些概念,貝葉斯公式:
。先驗機率指的是
,似然機率指的是
,後驗機率指的是
。
頻率派 vs 貝葉斯派
兩者本身沒有孰對孰錯,是兩種不同的看待世界的方法論:
頻率派把模型引數看成
未知的定量
,用極大似然法MLE(一種引數點估計方法)求解引數,往往最後變成
最最佳化
問題。這一分支又被稱為統計學習。
極大似然法 MLE:
貝葉斯派把模型引數看成
未知的變數(機率分佈)
,用最大化後驗機率MAP求解引數。
最大後驗法MAP:
其實最大化後驗機率還不算純粹的貝葉斯派,純粹的貝葉斯派是求出具體的後驗,難度很大,要進行積分,也就是要求出P(x)這一項,像蒙特卡洛方法、機率圖模型。
可以看到兩者
最大的區別在於對引數的認知。
頻率派認為引數是常量,資料是變數;貝葉斯派則認為引數是變數,不可能求出固定的引數,資料是常量。
下面我們將從最小二乘法、交叉熵、L1正則化、L2正則化出發,來對這兩種思想做出詮釋。
1.最小二乘法
迴歸任務可以化為下式,其中y是真實的連續值,
是預測的連續值,
則是噪聲。
我們假設噪聲
符合正態分佈,即
因此當我們給定w和x時,
得
下面就用頻率派的思想,極大似然法MLE
最後,我們要求w,轉換為最最佳化問題。
至此我們證明了,最小二乘法就是噪聲符合正態分佈的極大似然法的數學形式。從機率角度給出了最小二乘法的理論支撐。我們發現頻率派,往往轉換為極大似然法問題,也就是最最佳化求極值問題,這也被稱為統計學習,像決策樹,支援向量機都有最最佳化思想,都屬於這一分支。
2。交叉熵
我們知道交叉熵用在分類任務上。以二分類為例,假設符合伯努利分佈,則
y就是真實的類別,取值為0或1。
表示為1類的機率。
用極大似然法
這就是交叉熵的數學形式。
3.L2正則化、L1正則化
L2正則化,又被稱為嶺迴歸Ridge regression,是避免過擬合的有效手段。
以迴歸任務為例:
我們假設噪聲
符合正態分佈,即
把x看成常量
,當我們給定w時,
得
並且我們引入先驗,
假設引數w符合正態分佈
,即
,因此
利用最大後驗法MAP:
一頓操作後,發現
L2正則化就是假設引數符合正態分佈的最大後驗法
的數學形式!同理可得
L1正則化是假設引數符合拉普拉斯分佈的最大後驗法
。
我們現在可以從機率角度解釋正則化到底在幹什麼了。正則化就是引入了先驗知識,我們知道世界上大多數事件是服從正態分佈的,像身高、體重、成績等等。因此我們假設引數也符合正態分佈。引入先驗知識有什麼好處呢,我們現在拋一枚硬幣,50次中有30次都是正面向上,問你拋這枚硬幣的機率分佈,這時你想起你人生中遇到的大多數硬幣都是均勻的,儘管資料顯示不均勻,你還是會認為這枚硬幣是均勻的。如果你是這麼想的,
那你就引入了先驗知識
。因此引入先驗知識在資料不足的時候有很大好處。
當然正則化的好處,我們還可以從矩陣可逆不可逆,特徵選擇等角度證明。
最後,看到這裡你不禁產生這樣的疑惑,最大後驗法也是轉換成最最佳化問題啊,跟頻率派有什麼區別嗎?對的,最大後驗法不是原汁原味的貝葉斯派,它是貝葉斯派的妥協,因為求積分
太難了,所以最大後驗法是貝葉斯派向頻率派的妥協。
參考:機器學習[白板推導]
背後的哲學
頻率派認為模型引數是客觀存在的,它就在那裡,如果有一個全知全能神,就能告訴你引數值是多少,當資料量成千上萬時,我們可以不斷逼近那個真實的引數。
貝葉斯派認為認為一切機率都是主觀的,不存在客觀存在的機率。
在證明L2正則化時,你肯定想問為什麼假設引數的先驗分佈是正態分佈,沒錯,這就是主觀的,是主觀臆斷的。這也是頻率派常常抨擊貝葉斯派的一點,先驗分佈該如何獲取?
貝葉斯派是這樣辯護的:先驗分佈如何獲取不重要,重要的是,我們可以不斷假設,不斷修改。並且先驗分佈不是完全瞎猜的,而是基於我之前的人生經驗,比如太陽東昇西落,硬幣總是50%向上。
貝葉斯派中最關鍵的是貝葉斯公式,但貝葉斯到死都沒有窺見貝葉斯公式的美,直到後人將它發揚光大。在它的歷史長河中,很長一段時間被頻率派壓制,大家可以回憶一下自己的高中課本,講的全是古典概型(即頻率派)。直到計算機的發明,貝葉斯派迎來了曙光,如今被廣泛應用在機器學習,人工智慧領域。
貝葉斯派是真的博大精深,我無法窺探它的全貌,推薦一本書《貝葉斯的博弈-數學、思維與人工智慧》,是一本科普讀本,作者非常淵博,從哲學、數學、歷史、物理、計算機、資訊理論深刻地講述了貝葉斯主義。書中反駁了頻率派的p值檢驗,併為貝葉斯派的引入先驗知識進行辯護。書中講到:甚至可以說,不知不覺中,你都沒有意識到自己就是一個貝葉斯主義者。