接上一期的分享,今天繼續學習統計學的相關知識,今天涉及到的五個知識點主要包括離散型機率分佈、連續型機率分佈、假設檢驗、假設檢驗的運用(一類錯誤與二類錯誤)以及相關、因果以及迴歸關係。樓主整理了網友們分享的知識並加上自己的一些理解,彙集成這篇文章,歡迎大家批評指正,所有的引用在文中已經標出並附上了作者和連結,也歡迎大家查閱原文。

不得不學的統計學基礎知識(二)

該圖轉載自知乎[小野仙蹤]的《機率論與統計學:離散型和連續型隨機變數的機率分佈》,https://zhuanlan。zhihu。com/p/38224194。

一、

離散型機率分佈

離散型隨機變數是所有取值能夠一一列舉出來,這樣的隨機變數稱為離散型隨機變數。例如擲骰子試驗,朝上的點數只能從1,2,3,4,5,6中取值。而關於離散型隨機變數的分佈就是離散型機率分佈,離散型機率分佈主要包括三類,幾何分佈;二項分佈以及泊松分佈。

下表彙總了這三類離散型機率分佈的部分計算公式。

不得不學的統計學基礎知識(二)

1. 幾何分佈

(1)定義

伯努利試驗是隻有兩種可能結果的單次隨機試驗。伯努利試驗都可以表達為“是或否”的問題。例如,拋一次硬幣,是否正面向上?在n次伯努利試驗中,第k次試驗才得到第一次成功的機率分佈稱為幾何分佈。

(2)條件

進行一系列相互獨立試驗。

每一次試驗都存在成功和失敗的可能,且每次可能性都相同。

想得到的結果是,為了取得第一次成功所需要進行多少次試驗。

(3)表示

X∼Geo(p)

(4)機率計算公式

第r次試驗取得成功的機率:

需要r次以上才能獲得第一個成功的機率:P(X>r)=q^r

需要試驗r次或不到r次即可取得第一次成功的機率:P(X<=r)=1−q^r

期望:E(X)=1/p

方差:Var(X)=q/p^2

2. 二項式分佈

(1)定義

如果試驗E是一個伯努利試驗,將E獨立重複地進行n次,則稱這一串重複的獨立試驗為n重伯努利試驗。二項分佈是n重伯努利試驗成功次數的離散機率分佈。

(2)條件

進行一系列獨立試驗。

每一次試驗都存在成功和失敗的可能,且每次成功機率相同。

試驗次數有限。

(3)與幾何分佈的不同之處

幾何分佈感興趣的是取得第一次成功所需要進行多少次試驗。

二項式分佈感興趣的是獲得成功的次數。

(4)表示

X∼B(n,p)

在n次試驗中,取得r次成功的機率為:

不得不學的統計學基礎知識(二)

(5)計算公式

期望:E(X)=np

方差:Var(X)=npq

3. 泊松分佈

(1)定義

泊松分佈描述單位時間/面積內,隨機事件發生的次數,比如某一服務設施一定時間內到達的人數,一個月內機器損壞的次數等。

(2)條件

單獨時間在給定區間內隨機、獨立地發生,給定區間可以是時間或空間。

一直該區間內的時間平均發生的次數(或者叫做發生率),且為有限數值。該時間平均發生次數通常用希臘字母λ表示。

(3)表示

X∼Po(λ)

給定區間內發生r次時間的機率是:

不得不學的統計學基礎知識(二)

(4)計算公式

期望:E(X)=λ

方差:Var(X)=λ

離散型機率分佈這一節的標引內容轉載自[小野仙蹤]的《機率論與統計學:離散型和連續型隨機變數的機率分佈》,

https://

zhuanlan。zhihu。com/p/38

224194

;其餘內容整理自《深入淺出統計學》。

二、

連續型機率分佈

隨機變數的取值是某一個區間中的任意一點,這樣的隨機變數稱為連續型隨機變數,比如公交車每15分鐘一班,某人在站臺等車的時間x就是一個連續型隨機變數。連續型隨機變數的機率分佈叫做連續型機率分佈。

1.

正態分佈

正態分佈是統計學中常見的一種分佈,如學生考試成績的人數分佈等,表現為兩邊對稱,是一種鐘形的機率分佈。正態分佈的機率密度函式為:

不得不學的統計學基礎知識(二)

正態分佈的期望:

不得不學的統計學基礎知識(二)

方差:

不得不學的統計學基礎知識(二)

μ=0且δ=1的正態分佈稱為標準正態分佈。它有對應的標準正態分佈表,透過該表可以找到對應值累積的機率。正態分佈轉化為標準正態分佈:正態分佈X,均值是μ,標準差是δ,z定義為

不得不學的統計學基礎知識(二)

正態分佈的重要應用,我們在前一期中提過的3δ原則。

不得不學的統計學基礎知識(二)

正態分佈來近似二項分佈:當n足夠大的時候,正態分佈對於離散型二項分佈能夠很好地近似。

評價正態分佈:

(1)圖形:建立直方圖或者枝幹圖,看影象的形狀是否類似正態曲線,即土墩形或者鐘形,並且兩端對稱。

(2)計算區間(μ-δ,μ+δ),(μ-2δ,μ+2δ),(μ-3δ,μ+3δ),看落在區間內的百分比是否近似於68%,95%,100%。(3δ原則)

(3)求IQR和標準差δ ,計算IQR/δ,如果是正態分佈,則IQR/δ≈1。3

(4)建立正態機率圖,如果近似正態分佈,點會落在一條直線上。

2.

均勻分佈

均勻分佈是指連續型隨機變數所有可能出現值的出現機率都相同。其機率密度函式為:

不得不學的統計學基礎知識(二)

均勻分佈的期望:

不得不學的統計學基礎知識(二)

方差:

不得不學的統計學基礎知識(二)

均勻分佈在自然情況下比較少見,而人工栽種的有一定株行距的植物群落即是均勻分佈。這表明X落在 [a,b] 的子區間內的機率只與子區間長度有關,和子區間位置無關,因此X落在 [a,b] 的長度相等的子區間內的可能性是相等的,所謂的均勻指的就是這種等可能性。

3.

指數分佈

指數分佈通常用來表示隨機事件發生的時間間隔,如旅客進機場的時間間隔、電子產品的壽命分佈等。

指數分佈的特徵:無記憶性。比如燈泡的使用壽命服從指數分佈,無論它已經使用了多長時間,假設為s,只要還沒有損壞,它能再使用一段時間t的機率與一件新產品使用時間t的機率是一樣的。這個證明過程簡單表示:

P(s+t|s) = P(s+t,s)/P(s) = F(s+t)/F(s)=P(t)

指數分佈的機率密度函式為:

不得不學的統計學基礎知識(二)

指數分佈的期望

不得不學的統計學基礎知識(二)

方差

不得不學的統計學基礎知識(二)

該部分內容標引部分轉載自[小野仙蹤]的《機率論與統計學:離散型和連續型隨機變數的機率分佈》,

https://

zhuanlan。zhihu。com/p/38

224194

三、苦苦分不清的各類假設檢驗

假設檢驗包括t檢驗、z檢驗、F檢驗、卡方檢驗、方差齊性檢驗等,這麼多的假設檢驗,好混亂啊,下面總結的資料幫助你理解這麼多型別的假設檢驗。

(1)什麼是假設檢驗

假設檢驗

是指預先對總體引數的取值做出假定,然後用樣本資料來驗證,從而做出是接受還是拒絕的結論。

(2)假設檢驗的思考邏輯

基本思路是:問題是什麼?證據是什麼?判斷依據是什麼?做出結論。

基本步驟:

1)、提出原假設和備擇假設

2)、確定適當的檢驗統計量

3)、規定顯著水平,查出臨界值,確定拒絕域和接受域

4)、計算檢驗統計量的值,做出統計決策。

(3) 假設檢驗的型別

其中假設檢驗的種類包括:T檢驗,Z檢驗,卡方檢驗,F檢驗,ANOVA (方差分析)等等。

1)方差分析

又稱“ 變異數分析”,是R。A。Fisher發明的,要求比較的資料服從正態分佈,用於兩個及兩個以上樣本均數差別的顯著性檢驗。方差分析可以用於兩樣本及以上樣本之間的比較。

方差分析主要用途:

① 均數差別的顯著性檢驗,

② 分離各有關因素並估計其對總變異的作用,

③ 分析因素間的互動作用,

④ 方差齊性檢驗。

2)T檢驗

T檢驗

主要用於樣本含量較小(例如n<30),要求比較的資料服從正態分佈,總體標準差σ未知的正態分佈資料。t檢驗只能用於兩樣本均數及樣本均數與總體均數之間的比較。t檢驗可用於比較男女身高是否存在差別。

3)Z檢驗

Z檢驗

是一般用於大樣本(即樣本容量大於30)平均值差異性檢驗的方法。它是用標準正態分佈的理論來判斷差異發生的機率,從而比較兩個平均數>平均數的差異是否顯著。

4)F檢驗

F檢驗

又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。

從兩研究總體中隨機抽取樣本,要對這兩個樣本進行比較的時候:

① 首先要判斷兩總體方差是否相同,即方差齊性。

② 若兩總體方差相等,則直接用t檢驗;

③ 若不等,可採用t‘檢驗或變數變換或秩和檢驗等方法。

其中要判斷兩總體方差是否相等,就可以用F檢驗。簡單的說就是檢驗兩個樣本的方差是否有顯著性差異,這是選擇何種T檢驗(等方差雙樣本檢驗,異方差雙樣本檢驗)的前提條件。

T檢驗與 F檢驗的差異:T檢驗用來檢測資料的準確度——系統誤差;F檢驗用來檢測資料的精密度 偶然誤差。

5)卡方檢驗

卡方檢驗

就是統計樣本的實際觀測值與理論推斷值之間的偏離程度,實際觀測值與理論推斷值之間的偏離程度就決定卡方值的大小,如果卡方值越大,二者偏差程度越小;反之,二者偏差越大,若兩個值完全相等時,卡方值就為0,表明理論值完全符合。其中卡方檢驗針對分類變數。

卡方檢驗就是檢驗兩個變數之間有沒有關係。以運營為例:卡方檢驗可以檢驗男性或者女性對線上買生鮮食品有沒有區別;不同城市級別的消費者對買SUV車有沒有什麼區別;如果有顯著區別的話,我們會考慮把這些變數放到模型或者分析裡去。

上面講了五種統計中的假設檢驗,說完之後,還是苦苦分不清,一張圖告訴你它們之間的區別和聯絡。

不得不學的統計學基礎知識(二)

圖片轉載自[鄭大哲]關於《關於假設檢驗,T檢驗 F檢驗 卡方檢驗 和 ANOVA 這些檢驗在什麼情況下使用,它們的區別是什麼?》的回答,https://www。zhihu。com/question/309884517

該部分轉載自[想吃麻辣燙啦]關於《關於假設檢驗,T檢驗 F檢驗 卡方檢驗 和 ANOVA 這些檢驗在什麼情況下使用,它們的區別是什麼?》的回答,

https://www。

zhihu。com/question/3098

84517/answer/579315142

;[鄭大哲]關於《關於假設檢驗,T檢驗 F檢驗 卡方檢驗 和 ANOVA 這些檢驗在什麼情況下使用,它們的區別是什麼?》的回答,

https://www。

zhihu。com/question/3098

84517

四、假設檢驗的運用(一類錯誤與二類錯誤)

1.假設檢驗

(1)目標:判斷一個假設是否可信。

(2)假設檢驗:做出假設或斷言,對照證據進行檢驗。

(3)步驟:

1)確定要進行檢驗的假設。

2)選擇檢驗統計量。

3)確定用於做出決策的拒絕域。

4)求出檢驗統計量的p值。

5)檢視樣本結果是否位於拒絕域內。

6)做出決策。

2.詳細過程

(1)確定假設

所需要檢驗的斷言被成為原假設。

與原假設對立的被成為備擇假設。

原假設與備擇假設不用覆蓋所有可能。

(2)選擇檢驗統計量

檢驗統計量:用於對假設進行檢驗的統計量,是與該檢驗關係最為密切的統計量。

(3)確定拒絕域

拒絕域:一組數值,給出反駁元假設的最極端證據。

為求拒絕域,先定顯著性水平,即所度量的一種願望,希望在樣本結果不可能程度達到多大時,就拒絕原假設,一般選擇5%或1%。

檢驗分類:

單尾檢驗:檢驗的拒絕域在可能的資料集的一側。

雙尾檢驗:拒絕域一分為二位於資料集的兩側。

(4)求出p值

定義:某個小於或等於拒絕域方向上的一個樣本數值的機率。

為取得樣本中的各種結果或取得拒絕域方向上的某些更為極端的結果的機率。

(5)樣本結果位於拒絕域中嗎。

做出決策。

3.第一類錯誤與第二類錯誤

(1)即使證據很有力,也無法確定斷言是錯誤的。

(2)假設檢驗可能出現的錯誤有兩種:

第一類錯誤:錯誤地拒絕真實假設。

P(第一類錯誤)=α,其中α為假設的顯著性水平。

第二類錯誤:錯誤地接受假的原假設。

P(第二類錯誤)=β

計算過程:檢查是否擁有H1的特定數值,求檢驗拒絕域以外的數值範圍,假定H1為真,求得到這些數值的機率。

不得不學的統計學基礎知識(二)

不得不學的統計學基礎知識(二)

該圖轉載自[Life·Intelligence]的《第一類錯誤和第二類錯誤》中的圖片https://www。cnblogs。com/leezx/p/9226078。html

功效:在H0為假的情況下,拒絕H0的機率。

功效=1−β

4.錯誤機率的計算

(1)第一類錯誤機率:顯著水平

發生了第一類錯誤,則我們拒絕了原假設,即原假設的發生機率落於拒絕域內。

故而發生第一類錯誤的機率,等於原假設落於拒絕域內的機率,等於顯著水平alpha。

P(第一類錯誤) = alpha

(2)第二類錯誤機率

第二類錯誤機率,則原假設錯誤情況下,接受原假設的機率。

即備擇假設正確的情況下,接受原假設的條件機率。

PS: 要計算第二類錯誤機率,必須擁有備擇假設H_1的具體數值,否則無法計算。因為需要根據備擇假設構建新的置信區間。

計算步驟如下:

1)我們接受了原假設:根據原假設的置信區間,確定接受原假設時,檢驗統計量X所需要的取值範圍

2) 備擇假設正確:根據備擇假設,得到新的機率分佈

3)根據機率分佈,得到X取值範圍的發生機率,即為第二類錯誤機率。

該部分內容總結了《深入淺出統計學》的部分知識點,引用了[Life·Intelligence]的《第一類錯誤和第二類錯誤》中的圖片

https://www。

cnblogs。com/leezx/p/922

6078。html

五、相關、迴歸和因果關係

相關表示兩個變數之間存在關聯,但並不是因果關係。迴歸分析

是根據相關關係的具體形態,選擇一個合適的數學模型,來近似表達變數間的平均變化關係。迴歸分析可是看做是相關關係的具體實現。

1.

相關性

客觀現象的相關關係有不同得分類標準,兩個變數之間的關係可以用散點圖來表示,進而可以對兩個變數之間的關係作出判斷。

(1)相關的型別:

正相關:兩個變數同時增加(或減小)。

負相關:兩個變數變化的趨勢相反,一個變數增加而另一個變數減小。

不相關:兩個變數間沒有明顯的(線性)關係。

非線性關係:兩個變數有關聯,但是以散點圖呈現的相關關係不是直線形狀。

(2)相關型別散點圖

不得不學的統計學基礎知識(二)

轉載自CSDN博主「ChenVast」的原創文章《【統計學】相關性和因果關係》,遵循 CC 4。0 BY-SA 版權協議, https://blog。csdn。net/ChenVast/article/details/83272268

(3)相關係數r的性質:

1)相關係數工用於測量相關性的強度,它的取值範圍是-1~1

2)如果不相關,點的分佈就不會以直線模式上升或下降的值接近於0

3)如果是正相關,相關係數就是正數(0

4)如果是負相關,相關係數就是負數(-1≤r<0):一個變數上升,另一個變數下降。完全負相關(所有的點在散點圖中呈現一條下降的直線)的相關係數r=-1。r的值接近-1表明是強負相關,r的值接近0表明是弱負相關。

公式:

不得不學的統計學基礎知識(二)

正相關是正數、負相關是負數、不相關趨近於零。

(4)相關的可能解釋

相關是偶然的。

兩個相關變數可能直接受到一些潛在因素的影響。

一個變數是另一個變數的原因。但是要注意,即便如此,它也許只是眾多原因中的一個。

轉載自CSDN博主「ChenVast」的原創文章《【統計學】相關性和因果關係》,遵循 CC 4。0 BY-SA 版權協議,

https://

blog。csdn。net/ChenVast/

article/details/83272268

2.迴歸

迴歸分析是根據相關關係的具體形態,選擇一個合適的數學模型,來近似表達變數間的平均變化關係。迴歸分析可是看做是相關關係的具體實現。

(1) 一元線性迴歸模型

一元線性迴歸描述因變數如何依賴自變數和誤差項的方程稱為迴歸模型。可以表示為:Y=β₀+β₁X+ε式中,β₀,β₁為模型的引數。

(2)最小二乘法

最小二乘法(又稱最小平方法)是一種數學最佳化技術。它透過最小化誤差的平方和尋找資料的最佳函式匹配。利用最小二乘法可以簡便地求得未知的資料,並使得這些求得的資料與實際資料之間誤差的平方和為最小。

(3)迴歸模型的擬合效果分析

使用估計的迴歸方程之前,需要對模型進行檢驗:

1)結合經濟理論和經驗分析迴歸係數的經濟含義是否合理;

2)分析估計的模型對資料的擬合效果如何;

3)對模型進行假設檢驗。

不得不學的統計學基礎知識(二)

轉載自簡書[TooJo]的原創文章《相關與迴歸分析》,https://www。jianshu。com/p/da6517ea81bf

該部分內容及圖片轉載自簡書[TooJo]的原創文章《相關與迴歸分析》,

https://www。

jianshu。com/p/da6517ea8

1bf

3.相關與迴歸和區別和聯絡

(1)迴歸分析與相關分析的區別

1)相關分析所研究的兩個變數是對等關係,迴歸分析所研究的兩個變數不是對等關係,必須根據研究目的確定其中的自變數、因變數。

2)對於變數x與y來說,相關分析只能計算出一個反映兩個變數間相關密切程度的相關係數,計算中改變x和y的地位不影響相關係數的數值。迴歸分析有時可以根據研究目的不同分別建立兩個不同的迴歸方程。

3)相關分析對資料的要求是,兩個變數都是隨機的,也可以是一個變數是隨機的,另一個變數是非隨機的。而回歸分析對資料的要求是,自變數是可以控制的變數(給定的變數),因變數是隨機變數。

(2)迴歸分析與相關分析的聯絡

1)相關分析是迴歸分析的基礎和前提。假若對所研究的客觀現象不進行相關分析,直接作迴歸分析,則這樣建立的迴歸方程往往沒有實際意義。只有透過相關分析,確定客觀現象之間確實存在數量上的依存關係,而且其關係值又不確定的條件下,再進行迴歸分析,在此基礎上建立迴歸方程才有實際意義。

2)迴歸分析是相關分析的深入和繼續。對所研究現象只作相關分析,僅說明現象之間具有密切的相關關係是不夠的,統計上研究現象之間具有相關關係的目的,就是要透過迴歸分析,將具有依存關係的變數間的不確定的數量關係加以確定,然後由已知自變數值推算未知因變數的值,只有這樣,相關分析才具有實際意義。

該部分轉載自百度知道[柒月黑瞳]的《簡述相關與迴歸的區別和聯絡》,

https://

zhidao。baidu。com/questi

on/1606024674828812667。html

4.因果關係

(1)建立因果關係的指導原則

如果你懷疑某一特定的變數(被懷疑的原因)對其他變數產生了一些影響:

1)尋找對被懷疑變數產生影響的那些變數,此時我們並不關心其他因素變化與否。

2)在被懷疑變數存在或剔除後有不同變化的變數中,核實被懷疑的變數剔除與否對這些變數的影響是否相同。

3)尋找大量的被懷疑變數產生眾多影響的證據。

4)如果影響由其他潛在的原因引起(你懷疑之外的原因),確保在解釋了其他潛在的原因之後,影響依然存在。

5)如有可能,透過實驗研究測試被懷疑的原因。如果由於道德原因實驗不能夠模擬的話,考慮用動物、細胞培養物或計算機模型進行實驗。

6)試判斷由被懷疑變數產生影響的物理機制

(2)因果關係的置信水平

1)可能的原因:我們已經討論了相關性,但是不能確定相關性之中是否蘊含著因果關係。在法律體系中,可能的原因(例如認為一個嫌疑人可能犯罪了)經常成為開始一項調查的原因。

2)合理的根據:我們有足夠的理由去懷疑相關包含因果關係,可能是因為符合一些建立因果關係的原則。在法律體系中,合理的根據會成為法官批准逮捕令或合法竊聽的一般標準

3)排除合理懷疑:我們已經找到合理解釋一件事情影響另一件事情的實體模型,懷疑這個因果關係是不合理的。在法律體系中,排除合理懷疑是定罪的一般標準,並且要在陳述中展示嫌疑人是如何以及為什麼犯罪。排除合理懷疑並不意味著排除一切懷疑

轉載自CSDN博主「ChenVast」的原創文章《【統計學】相關性和因果關係》,遵循 CC 4。0 BY-SA 版權協議,

https://

blog。csdn。net/ChenVast/

article/details/83272268

參考連結

https://

zhuanlan。zhihu。com/p/38

224194

https://www。

zhihu。com/question/3098

84517/answer/579315142

https://www。

zhihu。com/question/3098

84517

https://www。

cnblogs。com/leezx/p/922

6078。html

https://

blog。csdn。net/ChenVast/

article/details/83272268

https://www。

jianshu。com/p/da6517ea8

1bf

https://zhidao。baidu。com/question/1606024674828812667。