統計學的地下教育：樣本

給文章定標題還真是一件棘手的事情。藉此機會和大家分享一下統計學（或者狹義上的數理統計學）的一些一家之言，權作拋磚引玉。

要說樣本，先耐下性子，從

隨機變數

開始。

隨機變數，本質上不是字面上所謂的“變數”，而是一個從樣本空間

$\Omega$

到實直線

$\mathbb{R}$

的

函式

。某種程度上說，隨機變數的作用是把樣本空間

$\Omega$

中抽象的、形形色色的樣本點

$\omega$

用實數來表示，從而方便我們藉助實數的運算來研究樣本空間和樣本點了。當然，隨機變數是一類比較特殊的函式，稱之為

可測函式

。數學上，隨機變數和可測函式是一回事，只不過前者出現在測度論/機率論中，後者出現在實變函式/實分析中。但其中一些小細節頗有意思。

第一個有意思的地方在於，測度論把可測函式這一看上去地位蠻特別的函式，一開始就“普通”對待，使其回到了應有的“位置”。

大凡實變函式教程，往往都是先介紹測度，然後引入可測集的概念，再從而引出積分。這個順序非常符合直觀，因為一個集合是不是可測的，當然依賴於其上定義的測度；另外，這裡引入測度的動機之一是為了擴充套件積分論（從Riemann到Lebesgue）。

反觀測度論教程，往往先出某集合

$\Omega$

，再給定其子集構成

$\sigma$

域的集族

$\mathcal{F}$

，然後就

稱

（定義）

$\mathcal{F}$

中的元素為可測集。注意，這裡並沒有定義機率測度

$\mathbb{P}$

（甚至沒有定義一般的測度

$\mu$

），這就給人一種“先於測度就定義了可測集”的感覺。

當然，這兩種定義都是等價的。只是從測度論角度的定義，大大簡化了知識鏈條：從一開始就把可測集按照“定義”給出，就簡化了可測函式的定義（的理解）：

$f:(\Omega, \mathcal{F}) \to \mathbb{R}$

是可測函式，當且僅當任意實數區間（即Borel集）的原像是可測集（即原像屬於

$\mathcal{F}$

即可）。

另一個有意思的地方在於，或許大家會有點疑惑，在諸多函式的性態中，比如連續、微分和積分中，為何單單強調積分的重要性。現在回頭一想，隨機變數

$\xi$

和可測函式

是一回事，而隨機變數的一個很重要的特徵在於其期望

$\mathbb{E}(\xi)$

；而期望的定義就是積分——所以可測函式的積分從測度論上看，就是在討論什麼樣的隨機變數的期望是存在的——這從某種程度回答了為什麼積分對可測函式的重要性。

上面之所以囉嗦了很久隨機變數，是希望突出隨機變數和其他非隨機變數的差異：

（1）正因為名為隨機，所以其上才能建立機率結構

——這表明只有隨機變數才能引出機率的運算；反之，在寫文章時，不是令一個變數就能做機率運算，在做機率運算之前，一定要檢查這個變數是不是真正意義上的隨機變數（即樣本空間的構成、事件域的構成以及機率如何體現）；

（2）更進一步，隨機變數和機率分佈一一對應

——隨機變數可看成一個類似正態分佈密度曲線一樣的模型，這也從直觀上看出，隨機變數遠遠比一個數字複雜得多。

囉嗦完隨機變數後，才進入正題——

樣本

。

樣本之於統計學，就如同豆瓣醬之於川菜。那麼樣本是什麼？樣本的本質，就是隨機變數。具體來說，從一個機率總體

中抽取一批樣本

$X_1, \dots, X_n$

，這裡的所謂的

本質上就是隨機變數。而在具體的觀測得到的那個實數值，是指的

樣本值

。所以

$X_1 = x_1, \dots, X_n = x_n$

這樣的表達形式的意思是：從總體

中抽取一批樣本

$X_1, \dots, X_n$

，其值為

$X_1 = x_1, \dots, X_n = x_n$

。大小寫的區別在於，

是

隨機變數

，

是其某一次取到的

實數值

。

嚴格來說，一般而言的資料，都是指的樣本值，從而是實數，不應該具有機率結構。所以一些所謂“貝葉斯”描述：

$\mathbb{P}(引數 | 資料) \propto \mathbb{P}(資料 | 引數) \mathbb{P} (引數)$

是不嚴謹、錯誤的。而是應把資料寫成樣本

的形式。這裡之所以要這麼較真地區別抽樣的樣本

（隨機變數）和其具體的樣本值

（該隨機變數諸多可能取值中的一個實數）是為了強調樣本

$X_1, \dots, X_n$

含有了

豐富的、比大家想象中還要多

的資訊。

這裡的“豐富”怎麼理解呢？舉個簡單例子，設

$X_1, \dots, X_n \sim N(\mu, \sigma^2)$

是正態總體中的簡單隨機抽樣，那麼一般對均值

$\mu$

的估計是樣本均值

$\bar{X}_n = \frac{1}{n}\sum_{i = 1}^{n} X_i$

，對方差

$\sigma^2$

的估計是樣本方差

$S_n^2 = \frac{1}{n - 1}\sum_{i = 1}^{n}(X_i - \bar{X}_n)^2$

。這表明了，隨機抽樣樣本

$X_1, \dots, X_n$

不僅蘊含了總體的均值的“資訊”，還蘊含了總體的方差的“資訊”。僅僅如此嗎？如果把樣本

$X_1, \dots, X_n$

用來構造成經驗分佈函式

$\hat{F}_n(t) = \frac{1}{n}\sum_{i = 1}^n \mathbb{I}\{ X_i \leq t \}$

，那麼Glivenko–Cantelli 定理（毛子稱之為數理統計基本定理）表明，

$\hat{F}_n$

將幾乎處處一致收斂於真實分佈

。這就意味著，如果

足夠大，一批樣本

$X_1, \dots, X_n$

幾乎包含

了總體

的

全部

的資訊，以至於透過這些樣本就能“復原”總體

。這就是為什麼上面說樣本蘊含了“比大家想象中還要多”的資訊。

樣本含有“比大家想象中還要多”的資訊還體現於重抽樣技術上，也就是bootstrap。

一個關於bootstrap的千古疑惑是，

“初始抽樣已經取定了，不斷重複從初始抽樣裡面進行重抽樣，為什麼利用這些重抽樣樣本能得到比初始抽樣更好的結果呢？這裡沒有額外的資訊加入，怎麼就有更好的結果呢？”

確實，

重抽樣沒有帶來新資訊

，它之所以起作用，是因為它不斷地在“

榨取

”初始抽樣樣本中所蘊含的資訊。換句話說，得到初始樣本後，僅僅用它來做一次點估計什麼的，充其量只利用了其蘊含資訊的很少一部分——但剩下部分的資訊必須要用更高階的技術才能提煉到——比如這裡的bootstrap。這裡樣本就好比煤礦，拿去直接燒了固然可以生熱，但如果經過一些精加工，其燃燒效率會更上一層樓——這在煤礦有限的情況下尤為重要。

當然，這裡藉助“資訊”這一不太科學的概念描述樣本的價值是有欠缺的，實際上bootstrap的理論研究相當困難且繁瑣——雖然看上去就是重複抽樣罷了——但要從理論上刻畫bootstrap出來的分佈能夠收斂到你需要的那個分佈，涉及到弱收斂、經驗過程等一系列詰屈聱牙的內容。

希望大家都有收穫。

統計學的地下教育：樣本

真命天子什麼時候播放？

王者榮耀有哪些比較好的遊戲主播。?

隨便看看

換了剎車片方向盤跑偏怎麼回事？

煮茶器怎麼煮陳皮？

大清銀幣厚度3毫米？

鳳凰城上什麼傳奇？

統計學的地下教育：樣本

真命天子什麼時候播放？

王者榮耀有哪些比較好的遊戲主播。?

猜你喜歡

y等於x的平方的逆函式？

統計學中，什麼是抽樣誤差？影響抽樣誤差的因素有哪些？

機率基礎：機率密度函式並不是機率

隨便看看

換了剎車片方向盤跑偏怎麼回事？

煮茶器怎麼煮陳皮？

大清銀幣厚度3毫米？

鳳凰城上什麼傳奇？