看點:
解釋無偏樣本方差的分母為什麼是n-1
給出
的一個簡單證明,作為書中證明的補充。
第五章開始學習數理統計的知識,因此提出了很多新概念,主要可以分為兩部分:一是“統計量”,二是“抽樣分佈”。
一、統計量
(1)總體與樣本
在統計問題中,把研究物件的全體稱為“總體”,從總體中隨機抽取的部分“個體”組成的集合稱為“樣本”。
“無限總體假設”
:
總體中的個體數量一般是有限的,當數量充分大時,將有限總體看作無限總體是合理的。也就是說,抽樣前後對於有限總體的分佈沒有顯著影響,可認為是無限總體。
樣本
大小寫
的區別:一般地,
大寫表示樣本隨機變數
,是來自同一總體的“獨立同分布”的隨機變數;
小寫表示樣本具體的觀測值
, 例如擲骰子的結果:6,3,1,3,2。。。
本書不以大小寫區分變數與觀測值,用小寫表示樣本隨機變數。
有序樣本:
若將樣本觀測值由小到大排列,得到有序樣本
, 進而得到
“經驗分佈函式”
。
即根據抽樣的結果描繪的分佈函式。
格里紋科定理:
設
來自總體分佈
,
是該樣本的經驗分佈函式,則當
時,有
其中sup{ }表示函式的“最小上界”,即當樣本數量趨於無窮時,
的最小上界(上確界)趨於0。簡單來說,就是“經驗分佈函式”收斂於“總體分佈函式”。
(2)統計量
定義:不含未知引數的樣本函式稱為“統計量”,統計量的分佈稱為“抽樣分佈”。
不含未知引數的意思是,統計量主要由樣本(可以是隨機變數,也可是觀測值)構成,不涉及總體分佈中的引數。
樣本均值
樣本均值是樣本的算術平均值,
由於樣本來自同一個總體,屬於
獨立同分布
,因此每個樣本的期望值及方差均為
而樣本均值也是一個隨機變數,它也有期望值和方差:
樣本均值的期望值:
樣本均值的方差:
值得注意的是
為
均值方差
,而不是樣本方差。
2。
樣本方差
設
為取自某總體的樣本,則它與樣本均值
之差稱為“樣本偏差”,
稱為“偏差平方和”。
樣本方差(無偏方差)
等於平均偏差平方和,其中n-1稱為偏差平方和的自由度:
, 樣本方差是衡量樣本分散程度的統計量。
為什麼樣本方差的分母為n-1呢?總共不是有n個樣本嗎?
書中解釋為:當
確定以後,
中只有n-1個可以自由取值,剩下第n個可由其餘n-1個確定,因此自由度為n-1。但這並不能很好地回答分母為n-1的問題。
我們的目的是透過樣本方差估計總體方差,在已知總體均值
時,總體方差為
在不知道
的情況下,試圖用
估算總體方差,不妨以n作為分母,看看是否可行:
若以
為樣本方差,它與真實樣本方差
相差了
。除非
,否則比真實樣本方差小。因此應縮小分母使其增大。
我們看看以n-1為分母,估算是否還存在偏差?
根據樣本均值的性質 (之前證明過)
因此
為樣本方差的“無偏估計量”,記作
。
3。
原點矩與中心矩
k階原點矩:
k階中心矩:
4。
次序統計量
次序統計量的分佈
(3)充分統計量
有一個概念叫做“充分統計量”,在下一章“引數估計”中用到。我們知道,樣本的資訊一般需要加工提煉,然後進行統計推斷(估計總體分佈長什麼樣子)。有的資訊不可缺少,有的資訊則可拋棄,例如:估計射擊的命中率,10次射擊命中8次(即
)是不可缺少的資訊,但具體是第幾次命中的就不那麼重要了。所以
是一個充分統計量,它包含了估計命中率的所需資訊。如果統計量只包含了前9次射擊的結果,第10次射擊結果不知道,那就不是充分統計量了,因為它丟失了與命中率相關的重要資訊。
判斷是否充分統計量有3種方法:
依定義計算條件分佈
, 其中
為總體分佈待估計的引數,T為統計量。如果將此條件分佈展開,最終的形式不含引數
,則證明T為充分統計量;
因子分解定理:如果能把“機率函式(分佈列或密度函式)”寫出g(T,
),h(T)兩個函式的乘積(g含有引數,h不含引數),則證明T為充分統計量;
如果T為充分統計量,統計量S與之一一對應(例如S為T的單值函式),則S也為充分統計量。
二、三大抽樣分佈
以標準正態分佈為基礎構造的三個著名統計量(
),在統計推斷中發揮很大作用,因此它們的分佈函式被稱為“三大抽樣分佈”。學習三大分佈時,最讓人頭疼的可能是它們的密度函式推導及其表示式。這恰恰是統計推斷中不常用到的,我們並不透過密度函式計算什麼,因為三大分佈的分位數表早已制定好了。
學習三大分佈的目的是什麼呢?其中一點為後續“區間估計”服務,就是基於已知資訊(分佈型別、部分引數、樣本資訊等)估計未知引數的大致範圍。透過“樞軸量法”
把待定引數與已知資訊聯絡起來
,得出待定引數的置信區間。樞軸量法的理論基礎就是“三大分佈”的性質,這正是我們需要關注的。
因此我認為學習“三大分佈”應關注:
統計量的構成
密度函式及影象特點
與正態總體的聯絡(重要性質)
(1)卡方分佈
統計量
設
獨立同分佈於
, 則
為卡方分佈的統計量,它是n個標準正態分佈隨機變數的平方和。
統計量
服從卡方分佈,記作
,其中n表示多少個標準正態分佈隨機變數的平方和。
表示一個標準正態分佈的平方。
期望值與方差
應用:期望值與方差可用於計算
2。 密度函式及影象
特點:
右偏
n越大,越接近正態分佈
3。 與正態總體的聯絡
設
是來自“正態總體”
的樣本,其樣本均值與樣本方差分別為
那麼,
此性質把“正態總體”(的方差)與“卡方分佈”聯絡起來,在已知樣本資訊的條件下,可以估計
正態總體方差
。
要證明此性質並不容易,n個樣本竟服從自由度為n-1的卡方分佈。不妨簡單理解為:
在已知
的條件下,只有n-1個樣本是獨立的,因此它服從n-1的卡方分佈。
書中的證明非常複雜,現根據前文(第一部分)關於
的討論,給出一個不太嚴謹的證明:
已知
,等號兩側同時除以
,得
,進一步整理得
證畢。
證明最後一步非常有意思,分別利用了下列兩個結論:
隨機變數
,所以
隨機變數
,所以
(2)F分佈
統計量
F分佈的統計量由兩個卡方分佈構成,設
,其中
統計量F服從自由度為m與n的F分佈,記作F~F(m,n),其中m與n分別是位於分子、分母的卡方分佈的自由度。
期望值與方差:
注意期望值存在的條件為n>2,方差存在的條件為n>4。
2。 密度函式及影象
特點:
右偏
不會漸近於正態分佈
3。 與正態總體的聯絡
設
是來自
的樣本,設
是來自
的樣本,且兩樣本相互獨立,它們的樣本均值、樣本方差分佈為:
和
,則
此性質將兩個“正態總體”(的方差)與“F分佈”聯絡起來。已知兩個“正態總體”的樣本資訊時,
可估計這兩個正態總體方差之比
。
此性質利用F分佈的定義很容易證明。
另外,F分佈還有一個重要性質,在計算中常用到:F(m,n) = 1 / F(n,m)。
(3)t分佈
統計量
t分佈的統計量由一個標準正態和一個卡方構成,設
,其中
統計量t服從自由度為n的t分佈,記作 t~t(n)。n為位於分母的卡方分佈的自由度。
期望值與方差:
n>1時,期望值為0
n>2時,方差為n/(n-2)
當n>30時,t分佈可以用標準正態分佈近似
2。 密度函式及影象
特點:
以x=0為中心軸對稱
峰值比標準正態要小
尾部機率比標準正態要大
3。 與正態總體的聯絡
設
是來自
的樣本,其樣本均值與樣本方差分別為
和
,則
此性質將兩個“正態總體”(總體均值)與“t分佈”聯絡起來。已知“正態總體”的樣本資訊時,
可估計正態總體均值
。
證明:
等式右側的分子
,分母中的
,結果恰好符合t分佈的定義。
t分佈另有兩個性質:
根據定義可證明。
對於兩個正態總體,若它們的方差相等,設
,有
簡單證明第二個性質:
已知
且x與y相互獨立,於是
,若寫成標準正態分佈有
,這是位於分子的標準正態分佈;
已知
,且相互獨立,則
,這是位於分母的卡方分佈。
按照定義代入上述標準正態和卡方分佈,整理得到性質二。
四、抽樣分佈公式彙總
(1)一個正態總體
設
是來自
的樣本,其樣本均值與樣本方差分別為
和
,
(a)
,
(b)
……與(a)比較
(c)
(c)
……與(c)比較
(2)兩個正態總體
設
是來自
的樣本,設
是來自
的樣本,且兩樣本相互獨立,它們的樣本均值、樣本方差分佈為:
和
,則
(a)
,
(b) 如果
,則
其中
……與(a)比較
(c)
(d)
……與(c)比較
(3)推導利器
上述公式應熟記,推導證明順手拈來。