統計中的假設檢驗及Python實際應用

一旦排除了所有不可能，剩下的不管多麼難以置信，一定就是真相……

假設檢驗，統計學中的重中之重，在實際中有著廣泛的應用，其實質是：根據一定假設條件，由樣本推斷總體的一種方法。

本文將著重介紹假設檢驗中的t檢驗，及其在實際中的應用：A/B測試。

本文結構如下：

一、假設檢驗的一般步驟

二、假設檢驗報告的一般格式簡介

三、單樣本t檢驗：汽車引擎排放標準

四、相關配對t檢驗：斯特魯普效應驗證

五、獨立雙樣本t檢驗：A/B測試

一、假設檢驗的一般步驟

假設檢驗的一般步驟

step1. 問題是什麼？

①根據實際問題，確定出零假設H0和備擇假設H1。H0和H1互為相反，非此即彼，不可能同時滿足。

②確定檢驗型別。檢驗型別包括：

單樣本t檢驗、相關配對t檢驗、獨立雙樣本t檢驗

。

③均值的抽樣分佈。

當小樣本時，即樣本容量n<30，假如總體近似服從正態分佈，則均值的抽樣分佈為t分佈；

當大樣本時，即樣本容量n>=30，無論總體為何分佈，均值的抽樣分佈均為正態分佈。（中心極限定理）

④確定檢驗方向。看備擇假設H1的描述：

如果H1中包含小於號“<”，則為左尾；

如果H1中包含大於號“>”，則為右尾；

如果H1中包含不等號“≠”，則為雙尾。

檢驗型別及檢驗方向的判定，總結為下表：

檢驗型別和檢驗方向

step2. 證據是什麼？

有一種說法：假設檢驗就是個p（不是拍馬屁的屁哦）

沒錯，假設檢驗最核心的步驟就是計算p值，什麼是p值呢？

p值就是：

在零假設H0成立的條件下，出現樣本均值的機率是多少

。

t檢驗的p值計算過程：

方法一：根據樣本均值和標準誤，結合抽樣分佈型別，先計算出檢驗統計量和自由度，手動查表計算p值；

方法二：使用Python的科學計算包scipy自動計算檢驗統計量和p值。

step3. 判斷標準是什麼？

顯著性水平α，由人為根據實際情況主觀指定，常用的顯著性水平α=0。05。

step4. 得出結論

根據檢驗是單尾還是雙尾，用最終的p值與α值做比較：

當p<=α時，拒絕零假設H0，接受備擇假設H1；

當p>α時，沒有充分的證據拒絕零假設（傾向於接受H0，但需要進一步證據）。

二、假設檢驗報告的一般格式

2。1 描述統計分析

對樣本資料進行描述統計，報告平均值和標準差。

2。2 推論統計分析

（1）報告假設檢驗結果

採用APA格式，需要報告檢驗型別、抽樣分佈型別、檢驗方向、檢驗統計量、p值、顯著性水平α；

（2）報告置信區間

根據APA格式，需要報告置信區間的型別、置信水平、區間上下限；

（3）報告效應量

效應量代表實際效果是否顯著，包含兩種度量方法：

①差異度量Cohen‘s d = （樣本均值1-樣本均值2）/標準差

②相關度r^2 = t^2/（t^2+df），df是自由度

具體的資料分析報告例項見下文。

三、單樣本t檢驗

Task1:汽車引擎是否滿足排放標準？

“Super Engine”是一家專門生產汽車引擎的公司，根據政府釋出的新排放要求，引擎排放平均值要低於20ppm。公司製造出10臺引擎供測試使用，每一臺的排放水平如下：

15。6 16。2 22。5 20。5 16。4 19。4 16。6 17。9 12。7 13。9

問題：公司生產的引擎是否符合政府規定呢？

3.1 描述統計分析：

3.2 推論統計分析

（1）假設檢驗

問題是什麼？

小樣本的抽樣分佈是否滿足t分佈使用條件（總體近似正態）？因總體未知，此處只能透過樣本資料的視覺化分佈，大致推斷總體是否服從單峰的正態分佈。

總結：定義了零假設和備擇假設，確定了檢驗型別為單樣本t檢驗中的左尾檢驗，自由度df=9

證據是什麼？

證據就是計算p值（零假設成立的前提下，出現樣本均值的機率），此處有兩種計算方法。

由於該例屬於單尾檢驗，所以最終的p值需要雙尾p值除以2：

判斷標準是什麼？

常用的顯著性水平α=5%

得出結論

單尾p值與顯著性水平α作比較：當p<=α時，拒絕零假設H0，接受備擇假設H1；當p>α時，沒有充分的證據拒絕零假設（傾向於接受H0，但需要進一步證據）。

（2）置信區間

置信區間在不同的置信水平下有不同的“寬度”，此處置信水平為95%。

有兩種計算方法：分步計算，合併計算。

置信區間計算方法二：合併計算

（3）效應量

當假設檢驗具有統計顯著的結論時，需要進一步研究是否具有實際意義，即實驗結果是否“效果顯著”？衡量效果顯著用Cohen’s d指標，它表示：樣本均值1與樣本均值2，差異有幾個標準差。差異大小的衡量標準如下：

Cohen‘s d差異顯著性指標標準

3.3 資料分析報告

根據美國心理學會APA給出的統計推論分析結果報告格式，該案例最終的資料分析報告如下：

四、相關配對t檢驗

Task2：驗證特魯普效應的存在

斯特魯普效應是著名的心理學現象，展示了人們對事物的認知過程是一個自動化的歷程。當有一個新的刺激出現時，如果它的特徵和原先的刺激相似或符合一致，便會加速人們的認知；反之，若新的刺激特徵與原先的刺激不相同，則會干擾人們的認知，使人們的反映時間變長。

透過網上的stroop實驗做測試人的反應時間斯特魯普效應，每名參與者得到兩組有顏色的文字，第一組資料是字型內容和字型顏色一致，第二組資料是字型內容和字型顏色不一致。每名參與者對每組文字說出文字的顏色，並分別統計完成每組的時間。

問題：驗證斯特魯普效應的存在（不一致組反應時間均值比一致組反應時間均值長）

4.1 描述統計分析

4.2 推論統計分析

（1）假設檢驗

問題是什麼

相關配對檢驗關心的是兩組成對資料的差值，因此需先構造出差值資料：

假設檢驗中的t檢驗，需要總體滿足近似正態分佈的條件，但總體未知，可以從樣本資料的核密度圖粗略估計：

總結：定義了零假設和備擇假設，確定了檢驗型別為相關配對 t檢驗中的左尾檢驗，自由度df=n-1=25

證據是什麼？

證據就是計算p值（零假設成立的前提下，出現樣本均值的機率）。

判斷標準是什麼？

常用的顯著性水平α=5%

得出結論

單尾p值與顯著性水平α作比較：當p<=α時，拒絕零假設H0，接受備擇假設H1；當p>α時，沒有充分的證據拒絕零假設。

（2）置信區間

自由度df=data。shape［0］-1。

（3）效應量

4.3 資料分析報告

五、獨立雙樣本t檢驗

Task3：A/B測試

兩款鍵盤佈局不一樣的手機應用（A版本，B版本），你作為公司的產品經理，想在正式釋出產品之前，知道哪個鍵盤佈局對使用者體驗更好？

隨機抽取實驗者，將實驗者分成2組，每組25人，A組使用鍵盤佈局A，B組使用鍵盤佈局B。讓他們在30秒內打出標準的20個單詞文字訊息，然後記錄打錯字的數量。

問題：兩種版本佈局是否使用者體驗顯著不同，哪種更好？

5.1 描述統計分析

5.2 推論統計分析

（1）假設檢驗

問題是什麼？

假設檢驗中的t檢驗，需要總體滿足近似正態分佈的條件，但總體未知，可以從樣本資料的核密度圖粗略估計：

由兩樣本資料集的分佈情況可粗略估計，其所在的總體也近似服從正態分佈，故抽樣分佈滿足t分佈使用條件。

在做獨立雙樣本t檢驗之前，需要先做方差分析（F檢驗），判斷兩總體方差是否顯著不同，我們稱該操作為：

方差齊性檢驗

。方差相同情況為“

等方差

”，方差不同情況為“

異方差

”。兩種情況下，計算的檢驗統計量t值和自由度df會存在差異。

單純的方差齊性檢驗也可透過下面3種方法得到結果：

抑或透過視覺化的方法粗略估計：

總結：無論以上哪種方法做方差齊性檢驗，均得到p值大於顯著性水平α的結果，證明兩總體等方差a_var = b_var。

總結：定義了零假設和備擇假設，確定了檢驗型別為獨立雙樣本t檢驗，雙尾檢驗，經方差齊性檢驗，兩總體方差相同，自由度df=n1+n2-2=48

證據是什麼？

判斷標準是什麼？

得出結論

（2）置信區間

透過讀取置信區間的數值，區間邊界值均為負值，證明A版本打錯字數量均值顯著小於B版本，即A佈局版本更符合使用者體驗。

（3）效應量

獨立雙樣本的混合標準差sp的計算公式可參考統計書籍《商務與經濟統計第12版》275頁最下面；樣本均值=樣本均值1-樣本均值2。

5.3 資料分析報告

總結：

本文介紹了統計學的重頭戲：假設檢驗的實現方法，重點介紹t檢驗

推論統計分析報告：描述統計+推論統計

推論統計分析內容：假設檢驗+置信區間+效應量

假設檢驗步驟：①問題是什麼；②證據是什麼；③判斷標準是什麼；④得出結論

確定問題首先根據實際情況，定義互為相反的零假設和備擇假設

根據資料情況，判定屬於哪種檢驗型別，見下圖

判斷均值的抽樣分佈為哪種分佈（大樣本n>30正態分佈；小樣本n<30且總體正態，t分佈）

確定檢驗方向：左尾？右尾？雙尾？

計算零假設成立時，出現樣本均值的機率：p值

p值與顯著性水平 α作比較，得出統計顯著性結論

計算置信度95%的置信區間

透過效應量判斷效果顯著性（有實際意義）

來自兩個獨立總體的樣本，在t檢驗之前，先進行方差齊性檢驗。

檢驗型別的樣本資料集特點

統計中的假設檢驗及Python實際應用

吸入氣中po2(不低於40mmhg)下降,對呼吸運動有何影響

生肖龍是怎麼來的

隨便看看

黃菇魚湯怎麼做最好喝？

豬大腸幹家常做法？

兔子一般一胎生幾個？

岳飛的四大美女？

統計中的假設檢驗及Python實際應用

吸入氣中po2(不低於40mmhg)下降,對呼吸運動有何影響

生肖龍是怎麼來的

猜你喜歡

鋁的比重計算公式？

親子鑑定怎麼做最簡單方便？

電視臺的收視率怎麼算出來的？

隨便看看

黃菇魚湯怎麼做最好喝？

豬大腸幹家常做法？

兔子一般一胎生幾個？

岳飛的四大美女？