大家好,今天我們繼續來梳理數理統計的相關知識點。我們今天將介紹在正態分佈條件下的一些統計量的分佈,如果篇幅允許會繼續介紹引數估計的相關概念。

提供之前筆記的目錄:

統計學筆記|數理統計知識點概要(1)

下面我們開始本節的內容

目錄

正態總體的樣本均值與方差的分佈定理

統計推斷

引數估計(上)

點估計

估計量的評選標準

矩估計法

極大似然估計法

小結

正態總體的樣本均值與方差的分佈定理

我們預先假設總體為

X

,樣本均值和方差分別為

\bar X,S^2

,那麼只要總體

X

的均值和方差存在(設為

\mu,\sigma^2

),那麼就容易得到

E(\bar X)=\mu,D(\bar X)=\frac{\sigma^2}{n}

我們會在之後使用到這兩個預先的結果。

我們進一步假設

X \sim N(\mu,\sigma^2)

在給出第一個定理之前,我們先來證明一下

正態分佈的可加性

。而這就要涉及到

卷積公式

。雖然這些是機率論的東西,但是其蘊含的思想卻經典而重要,所以下面給出了這兩個部分的證明(當然你完全可以略過它們,作為一個summary,我覺得這一部分算welfare了)。

\mathrm{Lemma:Convolution ~ integral}

(X,Y)

為二維連續型隨機變數,具有機率密度

f(x,y)

,那麼

Z=X+Y

仍然為連續型隨機變數,並且機率密度為

\begin{cases} f_{X+Y}(z)=\int _{-\infty}^{\infty}f(z-y,y)\mathrm{d}y \quad\\ f_{X+Y}(z)=\int_{-\infty}^{\infty}f(x,z-x)\mathrm{d}x \end{cases}

如果X,Y相互獨立,它們可以化簡為

\begin{cases} \int_{-\infty}^{\infty} f_X(z-y)f_Y(y)\mathrm{d}y \\ \int_{-\infty}^{\infty} f_X(x)f_Y(z-x)\mathrm{d}x \end{cases}

f_X(x),f_Y(y)

為X,Y的邊緣密度

請注意公式裡的

符號大小寫

X,x

並不代表同一個含義。

我們給出它的證明,我們只證明第一個(

\mathrm{d}y

),第二個是同理的。

首先求

F_Z(z)

,把它寫成二重積分的形式,並且帶入

X,Y

,可以得到

F_Z(z)=P\{Z\le z\} = \iint\limits_{x+y \le z} f(x,y)\mathrm{d}x\mathrm{d}y

二重積分的常見解法是化為二次積分,也就是說我們可以先對x軸積分,再對y軸積分。

我們先畫出

x+y \le z

的影象。

統計學筆記|數理統計知識點概要(2)

統計學筆記|數理統計知識點概要(2)

由於我們要證的是第一個,所以我們提高y變數的優先順序,先考慮y。

直觀上看這張圖,容易看出在無限制的情況下,y是可以跑遍實數軸的。所以y的範圍就很容易得出來是

(-\infty,+\infty)

那麼現在給定y之後如何確定x呢?我們在原來的這張圖上標記一下。

統計學筆記|數理統計知識點概要(2)

統計學筆記|數理統計知識點概要(2)

我們假設給定

y

y_0

,那麼根據直線的方程,也就不難得到x的範圍為

x_0=z-y_0

,也就是說,假設給定了y,那麼x的範圍就是

(-\infty,z-y)

好的,有了範圍,我們就可以化簡這個二重積分了,它的結果是

F_Z(z)=\int_{-\infty}^{\infty}\left[\int_{-\infty}^{z-y}f(x,y)\mathrm{d}x\right]\mathrm{d}y

不難懂,對吧?

很明顯,我們的核心還是在於內部的積分,我們需要將積分上限換掉,積分內的

x

也要變成

z-y

,作為數競黨,你要第一時間反應過來

變數代換

。畢竟這不管是在競賽還是高考,都是個神器。

不好意思跑題了。我們作變數代換

x=u-y

。注意下,在這個積分內,

z,y

都視為常數(y在積分外,而z在剛開始給出這個機率密度的時候就已經被固定了(否則就不能心安理得的畫一條直線了),因此也是常數),也就是說在這個積分下我們滿足條件

\mathrm{d}x=\mathrm{d}u

根據x的範圍

(-\infty,z-y)

,我們很容易得到u的範圍

(-\infty,z)

(因為

u=x+y

),因此我們進一步化簡那個二次積分,可以得到

F_Z(z)=\int_{-\infty}^{\infty}\left[\int_{-\infty}^z f(u-y,y)du\right]\mathrm{d}y=\int_{-\infty}^{z}\left[\int_{-\infty}^{\infty}f(u-y,y)\mathrm{d}y\right]\mathrm{d}u

我們根據機率密度的定義,讓函式對

u=x+y

求導,就容易得到結果。

這個證明難懂的地方在於

u,z

兩個字母,因為兩個的形式都是

x+y

。事實上這裡的u是變數,帶入的

x,y

變數都是積分變數,可以任意變化,而

z=x+y

在外層變化,我們討論u的時候,是固定了z的,因此我們在最後u已經處理好了,才視z為變數。在之前,它都是常量。

有了卷積公式,就不難證明正態分佈的可加性了。

\mathrm{Lemma:Additivity ~of ~normal~ distribution}

\mathrm{Suppose} ~ X_i \sim N(\mu _i,\sigma_i^2),\mathrm{then}

Z=X_1+X_2+\cdots+X_n ~\mathrm{subjects ~ to ~ the ~ same ~ distribution}

\mathrm{and} ~ Z \sim N(\mu 1+\mu 2 +\cdots + \mu _n,\sigma^2_1+\sigma^2_2+\cdots +\sigma^2_n)

\mathrm{Proof(2 ~ dimensions): ~ We ~ have}

f_X(x)=\frac1{\sqrt{2 \pi}}\mathrm{e}^{-x^2/2},x \in R,\mathrm{and}

f_Y(y)=\frac1{\sqrt{2\pi}}\mathrm{e}^{-y^2/2},y \in R

\mathrm{Then:}f_Z(z)=\int_{-\infty}^{\infty}f_X(x)f_Y(z-x)\mathrm{d}x=\frac1{2\pi}\int_{-\infty}^{\infty}\mathrm{e}^{-\frac{x^2+(z-x)^2}{2}}

=\frac1{2\pi}\mathrm{e}^{\frac{-z^2}{4}}\int_{-\infty}^{\infty}\mathrm{e}^{-(x-\frac{z}{2})^2}\mathrm{d}x

\mathrm{Let ~} t=x-\frac{z}{2},\mathrm{then} ~ \mathrm{d}x=\mathrm{d}t,\mathrm{so}

f_Z(z)=\frac{1}{2\pi}\mathrm{e}^{-\frac{z^2}{4}}\int_{-\infty}^{\infty}\mathrm{e}^{-t^2}\mathrm{d}t=\frac1{2\sqrt{\pi}}\mathrm{e}^{\frac{-z^2}{4}}

(\mathrm{We ~ use ~ the ~ fact ~ that ~}\int_{-\infty}^{\infty}e^{-x^2}\mathrm{d}x=\sqrt{\pi})

\mathrm{Which ~ means} ~ Z \sim N(0,2)

Q.E.D.

事實上我們也可以利用

極座標和變數代換

證明上面引用的fact,但是那樣的話,這篇筆記的高等數學的味道似乎就太濃了……所以我想了想還是不在這上面花太多的功夫了。

如果真的有想知道這個結果的由來的話,可以私信我或者評論

。雖然高數書上提了……

那麼根據

正態分佈的可加性

可以得到如下的定理

Theorem1

X_1,X_2,\cdots,X_n

為來自正態總體

N(\mu,\sigma^2)

的樣本,那麼有

\bar X\sim N(\mu,\sigma^2/n)

有的時候也可以寫成

\frac{\bar X-\mu}{\sigma / \sqrt{n}} \sim N(0,1)

由於剛開始我們就已經給出了他們的均值與方差,因此這沒什麼需要證明的部分。

下面我們給出第二個定理

Theorem2

X_1,X_2,\cdots,X_n

為來自於總體

N(\mu,\sigma^2)

的樣本,那麼有

1。

\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

2。

\bar X

S^2

相互獨立

這個定理往往會在總體的

標準差引數未知

的情況下去使用。

這個定理的證明需要使用

正交矩陣

相關的知識,還是有難度的,感興趣的可以去參考《機率統計》的章末附錄,這裡就不再提供證明了(當然你們如果懶的話就評論我或者私信我,我補上就是咯,逃)

下面是第三個定理

Theorem3

條件同上,我們有

\frac{\bar X-\mu}{S/\sqrt{n}} \sim t(n-1)

這個公式主要在

總體的均值引數未知

的情況下使用。

回顧一下t分佈的表示式

\frac{X}{\sqrt{Y/(n-1)}}

(因為這裡的t分佈是n-1個自由度),會增進我們的理解。

它的證明也很簡單,因為

分子是一個標準正態分佈,分母是一個標準化後的自由度為n-1的卡方分佈

。利用前兩個定理的結論:

\frac{\bar X-\mu}{\sigma /\sqrt{n}} \sim N(0,1),\frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)

將第一個式子看作X,第二個式子看作Y,再帶入t分佈的表示式看一看,我們容易得到

\frac{\bar X-\mu}{\sigma/\sqrt{n}}/\sqrt{\frac{(n-1)S^2}{\sigma^2(n-1)}}=\frac{\bar X-\mu}{S/\sqrt{n}}

,也就得到了我們的結論。

最後是相對最難的第四個定理

Theorem4

X_1,X_2,\cdots,X_{n_1}

Y_1,Y_2,\cdots,Y_{n_2}

分別為來自於正態分佈總體

N(\mu_1,\sigma^2_1),N(\mu_2,\sigma^2_2)

的樣本,且樣本之間相互獨立。設

\bar X,\bar Y

為對應兩個樣本的樣本均值,

S_1^2,S_2^2

為樣本方差,那麼有

1。

\frac{S_1^2/S^2_2}{\sigma^2_1/\sigma^2_2} \sim F(n_1-1,n_2-1)

2。

\mathrm{When}~ \sigma^2_1=\sigma^2_2=\sigma^2,

\frac{(\bar X-\bar Y)-(\mu 1-\mu 2)}{S_w\sqrt{\frac1{n_1}+\frac1{n_2}}}\sim t(n_1+n_2-2)

\mathrm{with}~ S_w^2=\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2},S_w=\sqrt{S_w^2}

第一個公式往往會在

兩個隨機變數的方差未知,需要比較二者大小的時候使用

。它的證明也很簡單,我們把式子換一種寫法,變成

\frac{S_1^2/\sigma^2_1}{S_2^2/\sigma^2_2}

,然後結合F分佈的關係式

\frac{X/(n_1-1)}{Y/(n_2-1)}

和定理2,我們不難得到這個結果,這裡就略去證明了。

第二個公式主要會在

兩個隨機變數的均值未知,需要比較二者大小的時候使用

對於它的證明,我們也是需要先考慮t分佈的公式

\frac{X}{\sqrt{Y/(n_1+n_2-2)}}

首先注意到分子是個正態分佈,根據它的性質我們容易得到

\bar X-\bar Y \sim N(\mu_1-\mu_2,\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2})

那麼我們根據t分佈的要求,把它標準化一下可以得到

\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma^2_1}{n_1}+\frac{\sigma^2_2}{n_2}}}=\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{\sigma\sqrt{\frac1{n_1}+\frac1{n_2}}}\sim N(0,1)

再聯想到定理2,我們有

\frac{(n_1-1)S_1^2}{\sigma_1^2} \sim \chi^2(n_1-1),\frac{(n_2-1)S_2^2}{\sigma_2^2} \sim \chi^2(n_2-1)

聯想到卡方分佈的可加性(

忘了的話,去看看上一節

),我們有

\frac{(n_1-1)S_1^2+(n_2-1)S^2_2}{\sigma^2} \sim \chi^2(n_1+n_2-2)

那麼現在我們整理一下可以得到

\frac{(\bar X- \bar Y)-(\mu_1-\mu_2)}{\sigma\sqrt{\frac1{n_1}+\frac1{n_2}}}/\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{\sigma^2(n_1+n_2-2)}}

(\mathrm{erase ~ \sigma})=\frac{(\bar X-\bar Y)-(\mu_1-\mu_2)}{S_w\sqrt{\frac1{n_1}+\frac1{n_2}}}

,這就證明了結論。

最後一個定理的公式比較難記,我自己也沒有找到太好的記憶方法,因此給出了完整的邏輯推導過程,希望這可以幫助大家理解它。

到此為止,我們花了很大的篇幅,終於把四大定理全部介紹完了,我們最後再強調一點是

它們都是基於正態分佈總體的

。但是很幸運的是,正態分佈是如此的美妙,以至於在實際生活中隨機取樣得到的資料,都基本上符合正態分佈,因此這四大定理的這樣的侷限性就被大大削弱了,也就造就了這四大定理的絕對的奠基地位。

請隨時回憶這四大定理,

因為它們實在是太重要了

統計推斷

從現在開始,我們就正式進入到了統計學的一個重要組成部分——

統計推斷

從wikipedia抄下來的定義如下

Statistical Inference

Statistical inference

is the process of deducing properties of an underlying probability distribution by analysis of data。[1] Inferential statistical analysis infers properties about a population: this includes testing hypotheses and deriving estimates。 The population is assumed to be larger than the observed data set; in other words, the observed data is assumed to be sampled from a larger population。

統計推斷是根據資料分析來推導一個給定的機率分佈的性質。它根據總體來推導這些屬性,包括假設檢驗和引數估計。總體資料量會假定比已觀察到的資料集的資料量要大,也就是說,觀察到的資料往往被假定是從一個更大的總體來抽取出來的樣本。

(純手工翻譯,別打我……)

說的直白一點就是,

由已知推未知

。這也是

機器學習

的核心理念之一。比如我們高中數學選修2-3學的迴歸分析,就是一個這樣的例子。

我們從

引數估計

開始吧。

引數估計(上)

引數估計分為點估計和區間估計,我們先從

點估計

開始。

點估計

我們根據定義可以知道,機率分佈是已知的。所以引數估計的問題就是

在機率分佈已知的情況下,去推導未知的一些引數

。我們假設現在的分佈函式為

F(x;\theta)

,其中

\theta

為未知引數,那麼我們可以構造一個適當的統計量

\hat \theta(X_1,X_2,\cdots,X_n)

,把它的觀察值

\hat \theta(x_1,x_2,\cdots,x_n)

作為我們的引數的估計值(我們之後不再區分這兩個式子,統稱為

估計

點估計的方法有

矩估計法

極大似然估計法

。但我們首先要給出一些

估計量的判斷標準

估計量的判斷標準

首先是

相合性

,這是對一個估計量的基本要求。

相合性:

若估計量

\hat \theta

對於任意的

\theta \in \Theta

\lim _{n \to \infty}P\{|\hat \theta-\theta|<\varepsilon\}=1

,那麼就稱它具有相合性。

如果一個量在n取到無窮大的時候都不能做到一致收斂於機率,這就相當於直接與大數定律作對,這顯然是不可取的。

其次是

無偏性

,我們在上一節已經給出了定義。並且以此解釋了樣本方差中詭異的分母n-1。

為了這篇筆記的完整性,我們再次複述它。

無偏性:

對於一個引數

\theta

的估計量

\hat \theta

,如果滿足條件

E(\hat \theta)=\theta

,那麼就說這個估計是無偏的。

最後是

有效性

人嘛,一生中講究一個

字。所以有效性的定義如下

有效性

\hat \theta_1,\hat \theta_2

都是

\theta

的無偏估計量,如果對於任意的

\theta \in \Theta

D(\hat \theta_1) \le D(\hat \theta_2)

,且對於某一個

\theta

有不等號成立,就稱

\hat\theta_1

\hat \theta_2

有效。

也就是說,方差是要越小越好的。

下面我們進入

矩估計法

的內容。

矩估計法

矩估計法的準確率一直都為人詬病,所以包括目前火熱的機器學習演算法都只採用了極大似然估計方法。不過它被保留的原因是

它的估計量具有相合性

(但極大似然估計法不一定)。因此這一部分我們只說概念和定義,不會給出應用的例子。

首先根據中心極限定理(忘記的看上一節),我們定義樣本k階矩為

A_k=\frac1n\sum\limits_{i=1}^{n}X_i^k

,那麼它們依機率收斂為

\mu _k

(也就是CLT中所說的,n無窮大的時候

A_k

會無限逼近

\mu_k

),樣本的矩都是已知的,所以我們把它作為估計量,去用來估計

\mu _k

。這就是矩估計法的由來。

我們假設有k個引數,那麼根據這個方法我們可以估計出k個值

\mu _1,\mu_2,\cdots,\mu_k

,得到一系列的方程組

\begin{cases} \mu_1 &=\mu_1 (\theta_1,\theta_2,\cdots,\theta_k) \\ \mu_2 &= \mu_2(\theta_1,\theta_2,\cdots,\theta_k) \\ &\vdots\\ \mu_k & =\mu_k(\theta_1,\theta_2,\cdots,\theta_k) \end{cases}

進而解出k個引數的估計值(或者理解為

先將k階矩用未知引數表示出來,然後用已知的樣本統計量去替換

更具體的,假設我們需要估計2個引數,那麼只需要考慮

\mu_1=E(x),\mu_2=E(x^2)=D(x)+[E(x)]^2

即可。

極大似然估計法

這個方法的名聲就比矩估計法要高多了……

我們定義

極大似然函式

L(\theta)=L(x_1,x_2,\cdots,x_n;\theta)=\prod_{i=1}^{n}p(x_i;\theta),\theta \in \Theta

(其中

\Theta

\theta

的值域)

直觀上來看,我們有了一系列的樣本,那麼這

個分佈在這些樣本上的發生的機率就應該比較大

。我們當然不會認為這個事情發生了,所以滿足這個事件的總體機率分佈在這個事件附近的機率反而應該更小(就像一顆隕石砸了俄羅斯,因為俄羅斯已經發生過彗星撞地球了,所以俄羅斯之後是最不容易被彗星撞的地區了,所以我們就不必多加小心防範了,這純屬

胡扯蛋

)。根據這個直觀的認識,我們就是要取這樣的

\theta

,讓

L(\theta)

取到最大值

,然後讓這個時候的

\theta

作為估計量(

極大似然估計量

)。

大部分的情況下,這個函式都是很友好的(可微而已,

別看到友好就開始各種求導拉格朗日!

),根據Fermat定理,我們知道這個

\theta

滿足如下的條件

\frac{\mathrm{d}}{\mathrm{d}\theta}L(\theta)=0 \quad\mathrm{or} \quad \frac{\mathrm{d}}{\mathrm{d}\theta}\ln L(\theta)=0

(想一想為什麼兩個是等價的?)

事實上,第二種情形更為常用,因為這個時候求導往往友好很多。

如果引數多了,使用求偏導的方法就好啦。

我們對極大似然函式舉一個例子

Example:

設總體

X \sim N(\mu,\sigma^2)

x_1,x_2,\cdots,x_n

為來自總體

X

的一個樣本,

\mu,\sigma^2

未知,利用MLE(maximum likelihood estimation)去估計它們倆。

\mathrm{Solution:}

根據正態分佈的函式,我們很容易得到這個極大似然函式

L(\mu,\sigma^2)=(2\pi)^{-n/2}(\sigma^2)^{-n/2}\mathrm{exp}[-\frac1{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2]

取對數可以得到

\ln L=-\frac{n}{2}\ln(2\pi)-\frac{n}{2}\ln \sigma^2-\frac1{2\sigma^2}\sum^{n}_{i=1}(x_i-\mu)^2

我們對這個函式求偏導,得到方程組

\begin{cases} \frac{\partial }{\partial \mu}\ln L=\frac1{\sigma^2}(\sum\limits^{n}_{i=1}x_i-n\mu)=0\\ \frac{\partial}{\partial \sigma^2}\ln L =-\frac{n}{2\sigma^2}+\frac1{2(\sigma^2)^2}\sum\limits^{n}_{i=1}(x_i-\mu)^2=0 \end{cases}

(我們需要把

\sigma^2

當做一個引數,請不要對

\sigma

求導)

解方程,可以得到

\hat \mu=\bar x,\hat \sigma^2=\frac1{n}\sum\limits_{i=1}^{n}(x_i-\bar x)^2

,進而得到它的極大似然估計量為

\mu = \bar X,\sigma^2=\frac1n\sum\limits_{i=1}^{n}(X_i-\bar X)^2

試著用矩估計法去解決一下這個題,你會發現答案是一致的。

小結

本節中我們花了很大的力氣去介紹了四大抽樣分佈定理,並且引入了統計推斷的內容,介紹了引數估計中的點估計。

不說區間估計的內容的原因是,它更多的與假設檢驗的內容相關聯,也許放在一起在下一節去說效果會更好。

希望大家在統計學的學習中high起來~

謝謝大家~~每一次例行給點贊收藏的筆芯~~

————————————————廣告———————————————————————

CPP專案組微信公眾號:

統計學筆記|數理統計知識點概要(2)

統計學筆記|數理統計知識點概要(2)

想要更多方面的知識分享嗎?歡迎關注專欄:一個大學生的日常筆記。我鼓勵和我相似的同志們投稿於此,增加專欄的多元性,讓更多相似的求知者受益~