一旦排除了所有不可能,剩下的不管多麼難以置信,一定就是真相……

假設檢驗,統計學中的重中之重,在實際中有著廣泛的應用,其實質是:根據一定假設條件,由樣本推斷總體的一種方法。

本文將著重介紹假設檢驗中的t檢驗,及其在實際中的應用:A/B測試。

本文結構如下:

一、假設檢驗的一般步驟

二、假設檢驗報告的一般格式簡介

三、單樣本t檢驗:汽車引擎排放標準

四、相關配對t檢驗:斯特魯普效應驗證

五、獨立雙樣本t檢驗:A/B測試

一、假設檢驗的一般步驟

統計中的假設檢驗及Python實際應用

假設檢驗的一般步驟

step1. 問題是什麼?

①根據實際問題,確定出零假設H0和備擇假設H1。H0和H1互為相反,非此即彼,不可能同時滿足。

②確定檢驗型別。檢驗型別包括:

單樣本t檢驗、相關配對t檢驗、獨立雙樣本t檢驗

③均值的抽樣分佈。

當小樣本時,即樣本容量n<30,假如總體近似服從正態分佈,則均值的抽樣分佈為t分佈;

當大樣本時,即樣本容量n>=30,無論總體為何分佈,均值的抽樣分佈均為正態分佈。(中心極限定理)

④確定檢驗方向。看備擇假設H1的描述:

如果H1中包含小於號“<”,則為左尾;

如果H1中包含大於號“>”,則為右尾;

如果H1中包含不等號“≠”,則為雙尾。

檢驗型別及檢驗方向的判定,總結為下表:

統計中的假設檢驗及Python實際應用

檢驗型別和檢驗方向

step2. 證據是什麼?

有一種說法:假設檢驗就是個p(不是拍馬屁的屁哦)

沒錯,假設檢驗最核心的步驟就是計算p值,什麼是p值呢?

p值就是:

在零假設H0成立的條件下,出現樣本均值的機率是多少

t檢驗的p值計算過程:

方法一:根據樣本均值和標準誤,結合抽樣分佈型別,先計算出檢驗統計量和自由度,手動查表計算p值;

方法二:使用Python的科學計算包scipy自動計算檢驗統計量和p值。

step3. 判斷標準是什麼?

顯著性水平α,由人為根據實際情況主觀指定,常用的顯著性水平α=0。05。

step4. 得出結論

根據檢驗是單尾還是雙尾,用最終的p值與α值做比較:

當p<=α時,拒絕零假設H0,接受備擇假設H1;

當p>α時,沒有充分的證據拒絕零假設(傾向於接受H0,但需要進一步證據)。

二、假設檢驗報告的一般格式

2。1 描述統計分析

對樣本資料進行描述統計,報告平均值和標準差。

2。2 推論統計分析

(1)報告假設檢驗結果

採用APA格式,需要報告檢驗型別、抽樣分佈型別、檢驗方向、檢驗統計量、p值、顯著性水平α;

(2)報告置信區間

根據APA格式,需要報告置信區間的型別、置信水平、區間上下限;

(3)報告效應量

效應量代表實際效果是否顯著,包含兩種度量方法:

①差異度量Cohen‘s d = (樣本均值1-樣本均值2)/標準差

②相關度r^2 = t^2/(t^2+df),df是自由度

具體的資料分析報告例項見下文。

三、單樣本t檢驗

Task1:汽車引擎是否滿足排放標準?

“Super Engine”是一家專門生產汽車引擎的公司,根據政府釋出的新排放要求,引擎排放平均值要低於20ppm。公司製造出10臺引擎供測試使用,每一臺的排放水平如下:

15。6 16。2 22。5 20。5 16。4 19。4 16。6 17。9 12。7 13。9

問題:公司生產的引擎是否符合政府規定呢?

3.1 描述統計分析:

統計中的假設檢驗及Python實際應用

3.2 推論統計分析

(1)假設檢驗

問題是什麼?

統計中的假設檢驗及Python實際應用

小樣本的抽樣分佈是否滿足t分佈使用條件(總體近似正態)?因總體未知,此處只能透過樣本資料的視覺化分佈,大致推斷總體是否服從單峰的正態分佈。

統計中的假設檢驗及Python實際應用

總結:定義了零假設和備擇假設,確定了檢驗型別為單樣本t檢驗中的左尾檢驗,自由度df=9

證據是什麼?

證據就是計算p值(零假設成立的前提下,出現樣本均值的機率),此處有兩種計算方法。

統計中的假設檢驗及Python實際應用

統計中的假設檢驗及Python實際應用

由於該例屬於單尾檢驗,所以最終的p值需要雙尾p值除以2:

統計中的假設檢驗及Python實際應用

判斷標準是什麼?

常用的顯著性水平α=5%

統計中的假設檢驗及Python實際應用

得出結論

單尾p值與顯著性水平α作比較:當p<=α時,拒絕零假設H0,接受備擇假設H1;當p>α時,沒有充分的證據拒絕零假設(傾向於接受H0,但需要進一步證據)。

統計中的假設檢驗及Python實際應用

(2)置信區間

置信區間在不同的置信水平下有不同的“寬度”,此處置信水平為95%。

有兩種計算方法:分步計算,合併計算 。

統計中的假設檢驗及Python實際應用

統計中的假設檢驗及Python實際應用

置信區間計算方法二:合併計算

(3)效應量

當假設檢驗具有統計顯著的結論時,需要進一步研究是否具有實際意義,即實驗結果是否“效果顯著”?衡量效果顯著用Cohen’s d指標,它表示:樣本均值1與樣本均值2,差異有幾個標準差。差異大小 的衡量標準如下:

統計中的假設檢驗及Python實際應用

Cohen‘s d差異顯著性指標標準

3.3 資料分析報告

根據美國心理學會APA給出的統計推論分析結果報告格式,該案例最終的資料分析報告如下:

統計中的假設檢驗及Python實際應用

四、相關配對t檢驗

Task2:驗證特魯普效應的存在

斯特魯普效應是著名的心理學現象,展示了人們對事物的認知過程是一個自動化的歷程。當有一個新的刺激出現時,如果它的特徵和原先的刺激相似或符合一致,便會加速人們的認知;反之,若新的刺激特徵與原先的刺激不相同,則會干擾人們的認知,使人們的反映時間變長。

透過網上的stroop實驗做測試人的反應時間斯特魯普效應,每名參與者得到兩組有顏色的文字,第一組資料是字型內容和字型顏色一致,第二組資料是字型內容和字型顏色不一致。每名參與者對每組文字說出文字的顏色,並分別統計完成每組的時間。

問題:驗證斯特魯普效應的存在(不一致組反應時間均值比一致組反應時間均值長)

4.1 描述統計分析

統計中的假設檢驗及Python實際應用

統計中的假設檢驗及Python實際應用

4.2 推論統計分析

(1)假設檢驗

問題是什麼

統計中的假設檢驗及Python實際應用

相關配對檢驗關心的是兩組成對資料的差值,因此需先構造出差值資料:

統計中的假設檢驗及Python實際應用

假設檢驗中的t檢驗,需要總體滿足近似正態分佈的條件,但總體未知,可以從樣本資料的核密度圖粗略估計:

統計中的假設檢驗及Python實際應用

總結:定義了零假設和備擇假設,確定了檢驗型別為相關配對 t檢驗中的左尾檢驗,自由度df=n-1=25

證據是什麼?

證據就是計算p值(零假設成立的前提下,出現樣本均值的機率)。

統計中的假設檢驗及Python實際應用

判斷標準是什麼?

常用的顯著性水平α=5%

統計中的假設檢驗及Python實際應用

得出結論

單尾p值與顯著性水平α作比較:當p<=α時,拒絕零假設H0,接受備擇假設H1;當p>α時,沒有充分的證據拒絕零假設。

統計中的假設檢驗及Python實際應用

(2)置信區間

自由度df=data。shape[0]-1。

統計中的假設檢驗及Python實際應用

統計中的假設檢驗及Python實際應用

(3)效應量

統計中的假設檢驗及Python實際應用

4.3 資料分析報告

統計中的假設檢驗及Python實際應用

五、獨立雙樣本t檢驗

Task3:A/B測試

兩款鍵盤佈局不一樣的手機應用(A版本,B版本),你作為公司的產品經理,想在正式釋出產品之前,知道哪個鍵盤佈局對使用者體驗更好?

隨機抽取實驗者,將實驗者分成2組,每組25人,A組使用鍵盤佈局A,B組使用鍵盤佈局B。讓他們在30秒內打出標準的20個單詞文字訊息,然後記錄打錯字的數量。

問題:兩種版本佈局是否使用者體驗顯著不同,哪種更好?

統計中的假設檢驗及Python實際應用

5.1 描述統計分析

統計中的假設檢驗及Python實際應用

統計中的假設檢驗及Python實際應用

5.2 推論統計分析

(1)假設檢驗

問題是什麼?

統計中的假設檢驗及Python實際應用

假設檢驗中的t檢驗,需要總體滿足近似正態分佈的條件,但總體未知,可以從樣本資料的核密度圖粗略估計:

統計中的假設檢驗及Python實際應用

由兩樣本資料集的分佈情況可粗略估計,其所在的總體也近似服從正態分佈,故抽樣分佈滿足t分佈使用 條件。

在做獨立雙樣本t檢驗之前,需要先做方差分析(F檢驗),判斷兩總體方差是否顯著不同,我們稱該操作為:

方差齊性檢驗

。方差相同情況為“

等方差

”,方差不同情況為“

異方差

”。兩種情況下,計算的檢驗統計量t值和自由度df會存在差異。

統計中的假設檢驗及Python實際應用

統計中的假設檢驗及Python實際應用

單純的方差齊性檢驗也可透過下面3種方法 得到結果:

統計中的假設檢驗及Python實際應用

抑或透過視覺化的方法粗略估計:

統計中的假設檢驗及Python實際應用

總結:無論以上哪種方法做方差齊性檢驗,均得到p值大於顯著性水平α的結果,證明兩總體等方差a_var = b_var。

總結:定義了零假設和備擇假設,確定了檢驗型別為獨立雙樣本t檢驗,雙尾檢驗,經方差齊性檢驗,兩總體方差相同,自由度df=n1+n2-2=48

證據是什麼?

統計中的假設檢驗及Python實際應用

判斷標準是什麼?

統計中的假設檢驗及Python實際應用

得出結論

統計中的假設檢驗及Python實際應用

(2)置信區間

統計中的假設檢驗及Python實際應用

透過讀取置信區間的數值,區間邊界值均為負值,證明A版本打錯字數量均值顯著小於B版本,即A佈局版本更符合使用者體驗。

(3)效應量

統計中的假設檢驗及Python實際應用

獨立雙樣本的混合標準差sp的計算公式可參考統計書籍《商務與經濟統計第12版》275頁最下面;樣本均值=樣本均值1-樣本均值2。

5.3 資料分析報告

統計中的假設檢驗及Python實際應用

總結:

本文介紹了統計學的重頭戲:假設檢驗的實現方法,重點介紹t檢驗

推論統計分析報告:描述統計+推論統計

推論統計分析內容:假設檢驗+置信區間+效應量

假設檢驗步驟:①問題是什麼;②證據是什麼;③判斷標準是什麼;④得出結論

確定問題首先根據實際情況,定義互為相反的零假設和備擇假設

根據資料情況,判定屬於哪種檢驗型別,見下圖

判斷均值的抽樣分佈為哪種分佈(大樣本n>30正態分佈;小樣本n<30且總體正態,t分佈)

確定檢驗方向:左尾?右尾?雙尾?

計算零假設成立時,出現樣本均值的機率:p值

p值與顯著性水平 α作比較,得出統計顯著性結論

計算置信度95%的置信區間

透過效應量判斷效果顯著性(有實際意義)

來自兩個獨立總體的樣本,在t檢驗之前,先進行方差齊性檢驗。

統計中的假設檢驗及Python實際應用

檢驗型別的樣本資料集特點