給文章定標題還真是一件棘手的事情。藉此機會和大家分享一下統計學(或者狹義上的數理統計學)的一些一家之言,權作拋磚引玉。

要說樣本,先耐下性子,從

隨機變數

開始。

隨機變數,本質上不是字面上所謂的“變數”,而是一個從樣本空間

\Omega

到實直線

\mathbb{R}

函式

。某種程度上說,隨機變數的作用是把樣本空間

\Omega

中抽象的、形形色色的樣本點

\omega

用實數來表示,從而方便我們藉助實數的運算來研究樣本空間和樣本點了。當然,隨機變數是一類比較特殊的函式,稱之為

可測函式

。數學上,隨機變數和可測函式是一回事,只不過前者出現在測度論/機率論中,後者出現在實變函式/實分析中。但其中一些小細節頗有意思。

第一個有意思的地方在於,測度論把可測函式這一看上去地位蠻特別的函式,一開始就“普通”對待,使其回到了應有的“位置”。

大凡實變函式教程,往往都是先介紹測度,然後引入可測集的概念,再從而引出積分。這個順序非常符合直觀,因為一個集合是不是可測的,當然依賴於其上定義的測度;另外,這裡引入測度的動機之一是為了擴充套件積分論(從Riemann到Lebesgue)。

反觀測度論教程,往往先出某集合

\Omega

,再給定其子集構成

\sigma

域的集族

\mathcal{F}

,然後就

(定義)

\mathcal{F}

中的元素為可測集。注意,這裡並沒有定義機率測度

\mathbb{P}

(甚至沒有定義一般的測度

\mu

),這就給人一種“先於測度就定義了可測集”的感覺。

當然,這兩種定義都是等價的。只是從測度論角度的定義,大大簡化了知識鏈條:從一開始就把可測集按照“定義”給出,就簡化了可測函式的定義(的理解):

f:(\Omega, \mathcal{F}) \to \mathbb{R}

是可測函式,當且僅當任意實數區間(即Borel集)的原像是可測集(即原像屬於

\mathcal{F}

即可)。

另一個有意思的地方在於,或許大家會有點疑惑,在諸多函式的性態中,比如連續、微分和積分中,為何單單強調積分的重要性。現在回頭一想,隨機變數

\xi

和可測函式

f

是一回事,而隨機變數的一個很重要的特徵在於其期望

\mathbb{E}(\xi)

;而期望的定義就是積分——所以可測函式的積分從測度論上看,就是在討論什麼樣的隨機變數的期望是存在的——這從某種程度回答了為什麼積分對可測函式的重要性。

上面之所以囉嗦了很久隨機變數,是希望突出隨機變數和其他非隨機變數的差異:

(1) 正因為名為隨機,所以其上才能建立機率結構

——這表明只有隨機變數才能引出機率的運算;反之,在寫文章時,不是令一個變數就能做機率運算,在做機率運算之前,一定要檢查這個變數是不是真正意義上的隨機變數(即樣本空間的構成、事件域的構成以及機率如何體現);

(2) 更進一步,隨機變數和機率分佈一一對應

——隨機變數可看成一個類似正態分佈密度曲線一樣的模型,這也從直觀上看出,隨機變數遠遠比一個數字複雜得多。

囉嗦完隨機變數後,才進入正題——

樣本

樣本之於統計學,就如同豆瓣醬之於川菜。那麼樣本是什麼?樣本的本質,就是隨機變數。具體來說,從一個機率總體

F

中抽取一批樣本

X_1, \dots, X_n

,這裡的所謂的

X_i

本質上就是隨機變數。而在具體的觀測得到的那個實數值,是指的

樣本值

。所以

X_1 = x_1, \dots, X_n = x_n

這樣的表達形式的意思是:從總體

F

中抽取一批樣本

X_1, \dots, X_n

,其值為

X_1 = x_1, \dots, X_n = x_n

。大小寫的區別在於,

X_i

隨機變數

x_i

是其某一次取到的

實數值

嚴格來說,一般而言的資料,都是指的樣本值,從而是實數,不應該具有機率結構。所以一些所謂“貝葉斯”描述:

\mathbb{P}(引數 | 資料) \propto \mathbb{P}(資料 | 引數) \mathbb{P} (引數)

是不嚴謹、錯誤的。而是應把資料寫成樣本

X_i

的形式。這裡之所以要這麼較真地區別抽樣的樣本

X_i

(隨機變數)和其具體的樣本值

x_i

(該隨機變數諸多可能取值中的一個實數)是為了強調樣本

X_1, \dots, X_n

含有了

豐富的、比大家想象中還要多

的資訊。

這裡的“豐富”怎麼理解呢?舉個簡單例子,設

X_1, \dots, X_n \sim N(\mu, \sigma^2)

是正態總體中的簡單隨機抽樣,那麼一般對均值

\mu

的估計是樣本均值

\bar{X}_n = \frac{1}{n}\sum_{i = 1}^{n} X_i

,對方差

\sigma^2

的估計是樣本方差

S_n^2 = \frac{1}{n - 1}\sum_{i = 1}^{n}(X_i - \bar{X}_n)^2

。這表明了,隨機抽樣樣本

X_1, \dots, X_n

不僅蘊含了總體的均值的“資訊”,還蘊含了總體的方差的“資訊”。僅僅如此嗎?如果把樣本

X_1, \dots, X_n

用來構造成經驗分佈函式

\hat{F}_n(t) = \frac{1}{n}\sum_{i = 1}^n \mathbb{I}\{ X_i \leq t \}

,那麼Glivenko–Cantelli 定理(毛子稱之為數理統計基本定理)表明,

\hat{F}_n

將幾乎處處一致收斂於真實分佈

F

。這就意味著,如果

n

足夠大,一批樣本

X_1, \dots, X_n

幾乎包含

了總體

F

全部

的資訊,以至於透過這些樣本就能“復原”總體

F

。這就是為什麼上面說樣本蘊含了“比大家想象中還要多”的資訊。

樣本含有“比大家想象中還要多”的資訊還體現於重抽樣技術上,也就是bootstrap。

一個關於bootstrap的千古疑惑是,

“初始抽樣已經取定了,不斷重複從初始抽樣裡面進行重抽樣,為什麼利用這些重抽樣樣本能得到比初始抽樣更好的結果呢?這裡沒有額外的資訊加入,怎麼就有更好的結果呢?”

確實,

重抽樣沒有帶來新資訊

,它之所以起作用,是因為它不斷地在“

榨取

”初始抽樣樣本中所蘊含的資訊。換句話說,得到初始樣本後,僅僅用它來做一次點估計什麼的,充其量只利用了其蘊含資訊的很少一部分——但剩下部分的資訊必須要用更高階的技術才能提煉到——比如這裡的bootstrap。這裡樣本就好比煤礦,拿去直接燒了固然可以生熱,但如果經過一些精加工,其燃燒效率會更上一層樓——這在煤礦有限的情況下尤為重要。

當然,這裡藉助“資訊”這一不太科學的概念描述樣本的價值是有欠缺的,實際上bootstrap的理論研究相當困難且繁瑣——雖然看上去就是重複抽樣罷了——但要從理論上刻畫bootstrap出來的分佈能夠收斂到你需要的那個分佈,涉及到弱收斂、經驗過程等一系列詰屈聱牙的內容。

希望大家都有收穫。