上一篇文章我們介紹了AB測試的基本概念、常規的實驗流程、如何計算實驗所需的樣本量和實驗週期,以及如何對樣本進行合理的分流。本篇文章我們將繼續講解AB測試結束後如何進行顯著性檢驗以判斷改動是否有效果,另外,對於面試中常考的AB測試也進行了總結。

1、AB測試效果顯著性檢驗

AB測試後,我們需要對AB測試的結果進行顯著性檢驗,從而判斷改動是否對我們的核心指標產生了顯著差異。

舉個栗子,我們以點選率為例,我們執行AB測試一週,分別對1000個樣本進行了測試。對照組A的點選率為7。5%,B的點選率為9%,如下表:

【AB測試最全乾貨】史上最全知識點及常見面試題(下篇)

我們能否給出結論說B比A好,改動是有效果的呢?有多大的可能是因為一些隨機的因素導致這樣的差異呢?

假設檢驗可以有效地幫助我們回答這個問題。首先假設改動沒有效果,即B的效果不會比A好,然後試圖透過樣本測試的結果來驗證這個假設,如果樣本足以推翻假設,那麼我們就可以認為改動有效果,否則我們需要繼續實驗或者乾脆就接受這個假設,把B方案扔掉了事。

由於我們實驗的樣本一般都較大(大於30),所以我們使用Z檢驗來檢驗差異顯著性(樣本量較小時,我們一般用T檢驗,對此有疑問感興趣的同學可以查閱相關資料)。

2、Z檢驗

1)樣本統計量Z值

Z檢驗是一種適用於大樣本(樣本容量大於30)的兩組平均數之間差異顯著性檢驗的方法。它是透過計算兩組平均數之間差的Z值與理論Z值相比較,看是否大於規定的理論Z值,從而判定兩組平均數的差異是否顯著。

其一般步驟如下:

第一步:建立原假設 H0:μ1 = μ2 ,即先假定兩組平均數之間沒有顯著差異,

第二步:計算統計量Z值,對於不同型別的問題選用不同的統計量計算方法,透過檢驗兩組樣本平均數的差異性,判斷它們各自代表的總體的差異是否顯著。

與計算樣本量相似,當觀測的指標為絕對值型別/比率型指標時,Z值的計算公式有所差異。

當觀測指標為絕對值類指標時:

【AB測試最全乾貨】史上最全知識點及常見面試題(下篇)

當觀測指標為比率類指標時:

【AB測試最全乾貨】史上最全知識點及常見面試題(下篇)

計算公式類似,只是對於絕對值/比率型指標,方差的計算方式有些差異而已。

2)理論Z值

樣本的統計量Z值可以透過以上的公式進行計算,理論Z值可以透過查詢Z值表獲得,更方便的一種方法,我們可以透過Excel的NORM。S。INV函式直接計算,如下是我們常用置信水平90%、95%、99%下的理論Z值。

【AB測試最全乾貨】史上最全知識點及常見面試題(下篇)

3)樣本統計量Z值vs理論Z值比較

假設透過以上公式計算的統計量Z值 = 1。22,小於我們設定95%置信水平對應理論Z值1。96,也就是說我們暫無法判斷這種差異性是顯著的,所以上述樣本不足以得出B比A好的結論。

4)繼續實驗

正如之前所說,由於無法得出B比A好的結論,這種情況下,我們需要做更多實驗。

於是,我們又做了一週,A和B分別得到了3000個樣本,對照組和實驗組轉化率不變。這個時候我們有信心認為B比A好了嗎?

【AB測試最全乾貨】史上最全知識點及常見面試題(下篇)

仍然是套用上述公式求統計量Z值= 2。66。超出了我們設定的95%置信水平對應理論Z值1。96,這個時候我們有了足夠的信心來相信B比A好。到此為止,實驗結束。

5)用工具直接驗證

當然,如果覺得上述的顯著性檢驗還是太麻煩,還記得我們之前安利的Evans AB Tools,我們可以用這個工具方便地進行檢驗!

使用方法也很簡單,分別輸入對照組和實驗組的比率類指標對應的分子、分母和置信水平Confidence level(一般95%)。

在第一週的實驗中,對照組A對應的分子、分母為75/1000(轉化率為7。5%),實驗組B的對應的分子、分母為90/1000(轉化率為9%),設定置信水平Confidence level為95%,得出的結果如下:兩組無顯著性差異!

【AB測試最全乾貨】史上最全知識點及常見面試題(下篇)

又進行了一週實驗,對照組A對應的分子、分母為225/3000(轉化率為7。5%),實驗組B的對應的分子、分母為270/3000(轉化率為9%),置信水平Confidence level仍為95%,得出結論:兩組有顯著差異,且實驗組B效果更好!

【AB測試最全乾貨】史上最全知識點及常見面試題(下篇)

不用任何公式,也能方便地進行AB測試結果的顯著性驗證,趕緊收藏吧!

3、AB測試常見面試題

還有一部分同學在準備資料分析的面試,不知道資料分析面試中AB測試會考哪些?希望能給一些建議,今天,它來了!

1、第一類錯誤vs第二類錯誤

面試官問:你怎麼理解AB測試中的第一、二類錯誤?

第一類錯誤和第二類錯誤,AB測試中最常提到的兩個概念,前面也提到過,也是統計學中比較容易搞混的兩個概念。不好理解的話,還是舉個栗子,在網際網路產品案例中,第一類錯誤代表的是一個功能的改動,本來不能給我們帶來任何收益,但是我們卻誤認為它能夠給我們帶來收益。同樣,第二類錯誤代表的是本來是一個好的產品,它本來可以給我們帶來收益,但是由於我們統計的誤差,導致我們誤認為它並不能給我們帶來收益。

【AB測試最全乾貨】史上最全知識點及常見面試題(下篇)

往往在實際的工作中,第一類錯誤是我們更加不能接受的。換句更直白的話說,就是我們寧願砍掉幾個好的產品,也絕對不能讓一個壞的產品上線。因為通常是一個壞的產品上線會給使用者的體驗帶來極大的不好的影響,而這個不好的影響會非常大程度的影響到我們的日活以及留存。你要知道在現實生活中,我們把留存或者把日活提升一個百分點都已經是一個非常了不起的優化了,但是通常要實現1%的留存率。人都需要花費很長時間,也很大精力,但是你如果想要留存下降一個百分點的話,可能就是一瞬間的事情。所以第一類錯誤通常是我們在實際工作當中所更加不能接受的。

2、統計顯著=實際顯著?

面試官問:如果你發現AB測試的結果在統計上來說是顯著,但是在實際中卻不顯著,這是為什麼?

這個可能的原因是我們在AB測試當中所選取的樣本量過大,導致和總體資料量差異很小,這樣的話即使我們發現一個細微的差別,它在統計上來說是顯著的,在實際的案例當中可能會變得不顯著了。舉個栗子,對應到我們的網際網路產品實踐當中,我們做了一個改動,APP的啟動時間的優化了0。001秒,這個數字可能在統計學上對應的P值很小,也就是說統計學上是顯著的,但是在實際中使用者0。01秒的差異是感知不出來的。那麼這樣一個顯著的統計差別,其實對我們來說是沒有太大的實際意義的。所以統計學上的顯著並不意味著實際效果的顯著。

3、AB測試效果統計上不顯著?

面試官問:如果你發現你在AB測試當中所選取的指標在統計上來說都是不顯著的,你該怎麼去判斷這個實驗的收益?

對於這種情況,我們所選取的一種通用的方式是將這個指標去拆分成每一天去觀察。如果指標的變化曲線每一天實驗組都高於對照組,即使他在統計上來說是不顯著的,我們也認為在這樣一個觀測週期內,實驗組的關鍵指標表現是優於對照組的,那麼結合這樣一個觀測,我們最終也可以得出這個最佳化可以上線的結論。

4、實驗組優於對照組就能上線?

面試官問:如果你在AB測試中發現實驗組核心指標明顯優於對照組,那這個最佳化就一定能夠上線嗎?

不一定。舉個例子,比如說有的時候我們想要提升產品的視覺展現效果。但是這種最佳化可能是以使用者等待內容展現的時間作為代價來進行提升的。所以一個方面的最佳化可能會導致另一個方面的劣化。在做這個最佳化的時候,可能會對其他部門產生一些負向的影響,進而導致公司收入的下降。所以我們在進行AB測試的時候,必須要綜合評估所有方面的一些指標變動,同時對於收益和損失來做一個評估,才能確認這個最佳化可以最終上線。

5、AB測試是必須的麼?

面試官問:AB測試成本很高,每個調整都需要AB測試麼?

但是比如說面試官問到每一個關於我們現在想要上線一個小改動,或者說要上線一個小調整,你會如何去驗證這個調整的收益?你都用AB測試去進行回答的話,他可能會反問,AB測試是需要成本的,你不覺得每一次我們如果都需要透過一個AB測試去驗證的話,成本過高嗎?對於這種情況,你可以說如果只是驗證一個小按鈕或者一個小改動,我們可以在介面上去設定一個開關,使用者可以透過開關的形式自行決定我採用哪一種方式。那麼我們最後就可以透過這個開關的相關指標去判斷使用者對於哪一種形式又有更大的傾向性。或者有的時候我們可以去做一些使用者調研,比如說透過訪談或者說是設計問卷的形式,去收集一些使用者的反饋。或者他們關於這些小變動的體驗,所以並不是絕對的。

6、AB測試的其他變式考法

最後在面試當中可能會存在一些AB測試的變式考法,所謂的變式考法,就是說面試官並不會直截了當的來告訴你說下面我要考一下你AB測試的掌握怎麼樣?一般情況下,當你的簡歷當中出現的比較多量化結果的時候,面試官可能會問你,你會如何去驗證這個數字的顯著性?再比如說,當你在簡歷當中明確提到你所參與的某個專案,你的分析結果帶來了一些顯著的收益,那麼面試官可能會問你,你會是如何驗證這些收益?當出現以上訊號的時候,我們就要知道面試官可能想考察你關於AB測試的知識了。有的時候你可能感覺面試官在故意刁難你,問你的明明是兩個比較矛盾的問題,但是在這種情況下,其實面試官想考察的是你的一個思維的廣度,在不同情況下,是不是知道能夠學習更多的方式或者指標去分析這個問題。

以上就是資料分析思維—AB測試部分的內容,整個資料分析思維繫列的12篇文章已經更新完畢,更多資料分析思維的文章請翻看歷史文章,如果覺得不錯,也歡迎分享、點贊和收藏~