一旦排除了所有不可能,剩下的不管多麼難以置信,一定就是真相……
假設檢驗,統計學中的重中之重,在實際中有著廣泛的應用,其實質是:根據一定假設條件,由樣本推斷總體的一種方法。
本文將著重介紹假設檢驗中的t檢驗,及其在實際中的應用:A/B測試。
本文結構如下:
一、假設檢驗的一般步驟
二、假設檢驗報告的一般格式簡介
三、單樣本t檢驗:汽車引擎排放標準
四、相關配對t檢驗:斯特魯普效應驗證
五、獨立雙樣本t檢驗:A/B測試
一、假設檢驗的一般步驟
假設檢驗的一般步驟
step1. 問題是什麼?
①根據實際問題,確定出零假設H0和備擇假設H1。H0和H1互為相反,非此即彼,不可能同時滿足。
②確定檢驗型別。檢驗型別包括:
單樣本t檢驗、相關配對t檢驗、獨立雙樣本t檢驗
。
③均值的抽樣分佈。
當小樣本時,即樣本容量n<30,假如總體近似服從正態分佈,則均值的抽樣分佈為t分佈;
當大樣本時,即樣本容量n>=30,無論總體為何分佈,均值的抽樣分佈均為正態分佈。(中心極限定理)
④確定檢驗方向。看備擇假設H1的描述:
如果H1中包含小於號“<”,則為左尾;
如果H1中包含大於號“>”,則為右尾;
如果H1中包含不等號“≠”,則為雙尾。
檢驗型別及檢驗方向的判定,總結為下表:
檢驗型別和檢驗方向
step2. 證據是什麼?
有一種說法:假設檢驗就是個p(不是拍馬屁的屁哦)
沒錯,假設檢驗最核心的步驟就是計算p值,什麼是p值呢?
p值就是:
在零假設H0成立的條件下,出現樣本均值的機率是多少
。
t檢驗的p值計算過程:
方法一:根據樣本均值和標準誤,結合抽樣分佈型別,先計算出檢驗統計量和自由度,手動查表計算p值;
方法二:使用Python的科學計算包scipy自動計算檢驗統計量和p值。
step3. 判斷標準是什麼?
顯著性水平α,由人為根據實際情況主觀指定,常用的顯著性水平α=0。05。
step4. 得出結論
根據檢驗是單尾還是雙尾,用最終的p值與α值做比較:
當p<=α時,拒絕零假設H0,接受備擇假設H1;
當p>α時,沒有充分的證據拒絕零假設(傾向於接受H0,但需要進一步證據)。
二、假設檢驗報告的一般格式
2。1 描述統計分析
對樣本資料進行描述統計,報告平均值和標準差。
2。2 推論統計分析
(1)報告假設檢驗結果
採用APA格式,需要報告檢驗型別、抽樣分佈型別、檢驗方向、檢驗統計量、p值、顯著性水平α;
(2)報告置信區間
根據APA格式,需要報告置信區間的型別、置信水平、區間上下限;
(3)報告效應量
效應量代表實際效果是否顯著,包含兩種度量方法:
①差異度量Cohen‘s d = (樣本均值1-樣本均值2)/標準差
②相關度r^2 = t^2/(t^2+df),df是自由度
具體的資料分析報告例項見下文。
三、單樣本t檢驗
Task1:汽車引擎是否滿足排放標準?
“Super Engine”是一家專門生產汽車引擎的公司,根據政府釋出的新排放要求,引擎排放平均值要低於20ppm。公司製造出10臺引擎供測試使用,每一臺的排放水平如下:
15。6 16。2 22。5 20。5 16。4 19。4 16。6 17。9 12。7 13。9
問題:公司生產的引擎是否符合政府規定呢?
3.1 描述統計分析:
3.2 推論統計分析
(1)假設檢驗
問題是什麼?
小樣本的抽樣分佈是否滿足t分佈使用條件(總體近似正態)?因總體未知,此處只能透過樣本資料的視覺化分佈,大致推斷總體是否服從單峰的正態分佈。
總結:定義了零假設和備擇假設,確定了檢驗型別為單樣本t檢驗中的左尾檢驗,自由度df=9
證據是什麼?
證據就是計算p值(零假設成立的前提下,出現樣本均值的機率),此處有兩種計算方法。
由於該例屬於單尾檢驗,所以最終的p值需要雙尾p值除以2:
判斷標準是什麼?
常用的顯著性水平α=5%
得出結論
單尾p值與顯著性水平α作比較:當p<=α時,拒絕零假設H0,接受備擇假設H1;當p>α時,沒有充分的證據拒絕零假設(傾向於接受H0,但需要進一步證據)。
(2)置信區間
置信區間在不同的置信水平下有不同的“寬度”,此處置信水平為95%。
有兩種計算方法:分步計算,合併計算 。
置信區間計算方法二:合併計算
(3)效應量
當假設檢驗具有統計顯著的結論時,需要進一步研究是否具有實際意義,即實驗結果是否“效果顯著”?衡量效果顯著用Cohen’s d指標,它表示:樣本均值1與樣本均值2,差異有幾個標準差。差異大小 的衡量標準如下:
Cohen‘s d差異顯著性指標標準
3.3 資料分析報告
根據美國心理學會APA給出的統計推論分析結果報告格式,該案例最終的資料分析報告如下:
四、相關配對t檢驗
Task2:驗證特魯普效應的存在
斯特魯普效應是著名的心理學現象,展示了人們對事物的認知過程是一個自動化的歷程。當有一個新的刺激出現時,如果它的特徵和原先的刺激相似或符合一致,便會加速人們的認知;反之,若新的刺激特徵與原先的刺激不相同,則會干擾人們的認知,使人們的反映時間變長。
透過網上的stroop實驗做測試人的反應時間斯特魯普效應,每名參與者得到兩組有顏色的文字,第一組資料是字型內容和字型顏色一致,第二組資料是字型內容和字型顏色不一致。每名參與者對每組文字說出文字的顏色,並分別統計完成每組的時間。
問題:驗證斯特魯普效應的存在(不一致組反應時間均值比一致組反應時間均值長)
4.1 描述統計分析
4.2 推論統計分析
(1)假設檢驗
問題是什麼
相關配對檢驗關心的是兩組成對資料的差值,因此需先構造出差值資料:
假設檢驗中的t檢驗,需要總體滿足近似正態分佈的條件,但總體未知,可以從樣本資料的核密度圖粗略估計:
總結:定義了零假設和備擇假設,確定了檢驗型別為相關配對 t檢驗中的左尾檢驗,自由度df=n-1=25
證據是什麼?
證據就是計算p值(零假設成立的前提下,出現樣本均值的機率)。
判斷標準是什麼?
常用的顯著性水平α=5%
得出結論
單尾p值與顯著性水平α作比較:當p<=α時,拒絕零假設H0,接受備擇假設H1;當p>α時,沒有充分的證據拒絕零假設。
(2)置信區間
自由度df=data。shape[0]-1。
(3)效應量
4.3 資料分析報告
五、獨立雙樣本t檢驗
Task3:A/B測試
兩款鍵盤佈局不一樣的手機應用(A版本,B版本),你作為公司的產品經理,想在正式釋出產品之前,知道哪個鍵盤佈局對使用者體驗更好?
隨機抽取實驗者,將實驗者分成2組,每組25人,A組使用鍵盤佈局A,B組使用鍵盤佈局B。讓他們在30秒內打出標準的20個單詞文字訊息,然後記錄打錯字的數量。
問題:兩種版本佈局是否使用者體驗顯著不同,哪種更好?
5.1 描述統計分析
5.2 推論統計分析
(1)假設檢驗
問題是什麼?
假設檢驗中的t檢驗,需要總體滿足近似正態分佈的條件,但總體未知,可以從樣本資料的核密度圖粗略估計:
由兩樣本資料集的分佈情況可粗略估計,其所在的總體也近似服從正態分佈,故抽樣分佈滿足t分佈使用 條件。
在做獨立雙樣本t檢驗之前,需要先做方差分析(F檢驗),判斷兩總體方差是否顯著不同,我們稱該操作為:
方差齊性檢驗
。方差相同情況為“
等方差
”,方差不同情況為“
異方差
”。兩種情況下,計算的檢驗統計量t值和自由度df會存在差異。
單純的方差齊性檢驗也可透過下面3種方法 得到結果:
抑或透過視覺化的方法粗略估計:
總結:無論以上哪種方法做方差齊性檢驗,均得到p值大於顯著性水平α的結果,證明兩總體等方差a_var = b_var。
總結:定義了零假設和備擇假設,確定了檢驗型別為獨立雙樣本t檢驗,雙尾檢驗,經方差齊性檢驗,兩總體方差相同,自由度df=n1+n2-2=48
證據是什麼?
判斷標準是什麼?
得出結論
(2)置信區間
透過讀取置信區間的數值,區間邊界值均為負值,證明A版本打錯字數量均值顯著小於B版本,即A佈局版本更符合使用者體驗。
(3)效應量
獨立雙樣本的混合標準差sp的計算公式可參考統計書籍《商務與經濟統計第12版》275頁最下面;樣本均值=樣本均值1-樣本均值2。
5.3 資料分析報告
總結:
本文介紹了統計學的重頭戲:假設檢驗的實現方法,重點介紹t檢驗
推論統計分析報告:描述統計+推論統計
推論統計分析內容:假設檢驗+置信區間+效應量
假設檢驗步驟:①問題是什麼;②證據是什麼;③判斷標準是什麼;④得出結論
確定問題首先根據實際情況,定義互為相反的零假設和備擇假設
根據資料情況,判定屬於哪種檢驗型別,見下圖
判斷均值的抽樣分佈為哪種分佈(大樣本n>30正態分佈;小樣本n<30且總體正態,t分佈)
確定檢驗方向:左尾?右尾?雙尾?
計算零假設成立時,出現樣本均值的機率:p值
p值與顯著性水平 α作比較,得出統計顯著性結論
計算置信度95%的置信區間
透過效應量判斷效果顯著性(有實際意義)
來自兩個獨立總體的樣本,在t檢驗之前,先進行方差齊性檢驗。
檢驗型別的樣本資料集特點