給文章定標題還真是一件棘手的事情。藉此機會和大家分享一下統計學(或者狹義上的數理統計學)的一些一家之言,權作拋磚引玉。
要說樣本,先耐下性子,從
隨機變數
開始。
隨機變數,本質上不是字面上所謂的“變數”,而是一個從樣本空間
到實直線
的
函式
。某種程度上說,隨機變數的作用是把樣本空間
中抽象的、形形色色的樣本點
用實數來表示,從而方便我們藉助實數的運算來研究樣本空間和樣本點了。當然,隨機變數是一類比較特殊的函式,稱之為
可測函式
。數學上,隨機變數和可測函式是一回事,只不過前者出現在測度論/機率論中,後者出現在實變函式/實分析中。但其中一些小細節頗有意思。
第一個有意思的地方在於,測度論把可測函式這一看上去地位蠻特別的函式,一開始就“普通”對待,使其回到了應有的“位置”。
大凡實變函式教程,往往都是先介紹測度,然後引入可測集的概念,再從而引出積分。這個順序非常符合直觀,因為一個集合是不是可測的,當然依賴於其上定義的測度;另外,這裡引入測度的動機之一是為了擴充套件積分論(從Riemann到Lebesgue)。
反觀測度論教程,往往先出某集合
,再給定其子集構成
域的集族
,然後就
稱
(定義)
中的元素為可測集。注意,這裡並沒有定義機率測度
(甚至沒有定義一般的測度
),這就給人一種“先於測度就定義了可測集”的感覺。
當然,這兩種定義都是等價的。只是從測度論角度的定義,大大簡化了知識鏈條:從一開始就把可測集按照“定義”給出,就簡化了可測函式的定義(的理解):
是可測函式,當且僅當任意實數區間(即Borel集)的原像是可測集(即原像屬於
即可)。
另一個有意思的地方在於,或許大家會有點疑惑,在諸多函式的性態中,比如連續、微分和積分中,為何單單強調積分的重要性。現在回頭一想,隨機變數
和可測函式
是一回事,而隨機變數的一個很重要的特徵在於其期望
;而期望的定義就是積分——所以可測函式的積分從測度論上看,就是在討論什麼樣的隨機變數的期望是存在的——這從某種程度回答了為什麼積分對可測函式的重要性。
上面之所以囉嗦了很久隨機變數,是希望突出隨機變數和其他非隨機變數的差異:
(1) 正因為名為隨機,所以其上才能建立機率結構
——這表明只有隨機變數才能引出機率的運算;反之,在寫文章時,不是令一個變數就能做機率運算,在做機率運算之前,一定要檢查這個變數是不是真正意義上的隨機變數(即樣本空間的構成、事件域的構成以及機率如何體現);
(2) 更進一步,隨機變數和機率分佈一一對應
——隨機變數可看成一個類似正態分佈密度曲線一樣的模型,這也從直觀上看出,隨機變數遠遠比一個數字複雜得多。
囉嗦完隨機變數後,才進入正題——
樣本
。
樣本之於統計學,就如同豆瓣醬之於川菜。那麼樣本是什麼?樣本的本質,就是隨機變數。具體來說,從一個機率總體
中抽取一批樣本
,這裡的所謂的
本質上就是隨機變數。而在具體的觀測得到的那個實數值,是指的
樣本值
。所以
這樣的表達形式的意思是:從總體
中抽取一批樣本
,其值為
。大小寫的區別在於,
是
隨機變數
,
是其某一次取到的
實數值
。
嚴格來說,一般而言的資料,都是指的樣本值,從而是實數,不應該具有機率結構。所以一些所謂“貝葉斯”描述:
是不嚴謹、錯誤的。而是應把資料寫成樣本
的形式。這裡之所以要這麼較真地區別抽樣的樣本
(隨機變數)和其具體的樣本值
(該隨機變數諸多可能取值中的一個實數)是為了強調樣本
含有了
豐富的、比大家想象中還要多
的資訊。
這裡的“豐富”怎麼理解呢?舉個簡單例子,設
是正態總體中的簡單隨機抽樣,那麼一般對均值
的估計是樣本均值
,對方差
的估計是樣本方差
。這表明了,隨機抽樣樣本
不僅蘊含了總體的均值的“資訊”,還蘊含了總體的方差的“資訊”。僅僅如此嗎?如果把樣本
用來構造成經驗分佈函式
,那麼Glivenko–Cantelli 定理(毛子稱之為數理統計基本定理)表明,
將幾乎處處一致收斂於真實分佈
。這就意味著,如果
足夠大,一批樣本
幾乎包含
了總體
的
全部
的資訊,以至於透過這些樣本就能“復原”總體
。這就是為什麼上面說樣本蘊含了“比大家想象中還要多”的資訊。
樣本含有“比大家想象中還要多”的資訊還體現於重抽樣技術上,也就是bootstrap。
一個關於bootstrap的千古疑惑是,
“初始抽樣已經取定了,不斷重複從初始抽樣裡面進行重抽樣,為什麼利用這些重抽樣樣本能得到比初始抽樣更好的結果呢?這裡沒有額外的資訊加入,怎麼就有更好的結果呢?”
確實,
重抽樣沒有帶來新資訊
,它之所以起作用,是因為它不斷地在“
榨取
”初始抽樣樣本中所蘊含的資訊。換句話說,得到初始樣本後,僅僅用它來做一次點估計什麼的,充其量只利用了其蘊含資訊的很少一部分——但剩下部分的資訊必須要用更高階的技術才能提煉到——比如這裡的bootstrap。這裡樣本就好比煤礦,拿去直接燒了固然可以生熱,但如果經過一些精加工,其燃燒效率會更上一層樓——這在煤礦有限的情況下尤為重要。
當然,這裡藉助“資訊”這一不太科學的概念描述樣本的價值是有欠缺的,實際上bootstrap的理論研究相當困難且繁瑣——雖然看上去就是重複抽樣罷了——但要從理論上刻畫bootstrap出來的分佈能夠收斂到你需要的那個分佈,涉及到弱收斂、經驗過程等一系列詰屈聱牙的內容。
希望大家都有收穫。