說明

本文是在PDF is not a probability這篇文章的基礎上修改的,如有不足,還望指出,謝謝。

本文內容

機率密度函式和機率質量函式的區別

機率密度函式為什麼不能看作是機率

如何用機率密度函式近似機率

在學機率密度函式 (Probability Dense Function, PDF)的時候,我就很疑惑啊,為什麼機率密度函式的值域(y軸上的最大值可以遠大於1),但對其求積分還能等於1呢?我們就從均勻分佈開始說一說。

首先,PDF是能夠保證在定義域上的積分為1的。在定義域

[0,0.5]

上的均勻分佈,而均勻分佈的PDF是

\frac{1}{b-a}

,我們就可以把函式影象畫出來了,圖片來自wiki: The PDF of uniform distribution

機率基礎:機率密度函式並不是機率

a=0,b=0.5

待入,就能計算出

f(x)

函式下的面積

= 2 * 0.5 = 1

從我之前學習PDF的時候,就感覺(真的是感覺上)認為~~PDF中存在值大於1,那麼積分就很難等於1~~,為什麼會存在這種錯覺?現在發現是,

以前將PDF與機率弄混了,他們之間的差異沒有理解清楚

PDF和機率的差異

回到我們的開頭,PDF函式得到的是機率嗎?並不是,因為它的值域已經不是

[0,1]

,而機率的定義是要求

[0,1]

的。我們是將機率密度函式和機率質量函式(Probability Mass Function, PMF)弄混了,PMF是用於離散隨機變數,而PDF用於連續隨機變數。

而機率質量函式PMF是等於機率的,但是機率密度函式PDF

\neq

機率

為什麼說PMD是等於機率的呢?對於PMF,我們使用它來尋找

X=x

的機率

P(X=x)

,其中

X

表示隨機變數,

x

表示隨機變數的某個具體值。而PDF,我們將PDF函式稱為

f(x)

,在這裡,

f(x)

表示的是定義域上

x

這個點對應的

機率密度

f(x)

;機率密度並不是機率,對於連續隨機變數而言,

P(X=x)

機率是0

為什麼連續隨機變數某一點的機率為0

拿上面的均勻分佈

U(0,0.5)

為例,在

[0,0.5]

之間有多少的數呢?無窮個。對於這無窮個數,即使每個數的機率為0。000001,所有數的機率的加起來又是無窮了,這和機率的定義亦是衝突的。

為了使定義域上每個數的機率加起來為1,則給他們的機率為

1/\infty=0

。那我們再反過來想一下,

如果無窮個數,每個數的機率為0,那我們求和那不就是0了嗎?

這裡就體現出:我們無法將離散隨機變數和PMF的規則遷移到PDF上。

引入機率密度來計算機率

寫到這裡似乎是明白了,機率密度和機率的關係猶如密度和質量的關係,對於體積為0的物體,即使密度在大,其質量也為0;同理,對於連續隨機變數中的一個點,機率密度再大,它的面積仍然是0。

借用積分 (integral) 的思想,雖然我們無法計算

x

點對應的機率,但是我們可以在點

x

周圍很小的區域

[x,x+dx]

上,計算機率

P(X \in [x,x+dx])

dx \to 0

時,

P(X \in [x,x+dx])

近似等於

P(X=x)

,並且,

P(X \in [x,x+dx]) = f(x)dx

(高數里面應該學過吧,極限的性質)

注意

PDF和PMF定義上的區別:前者的機率是在連續隨機變數情況下積分得到,後者的機率是在離散隨機變數情況下求和得到。

機率密度代表的是什麼呢?在點

x

處的機率密度表示的是該點附近機率的密度,或者說是,

該點附近dx的範圍內,集中了多少個機率。

(這句話還是很值得思考的)

參考

PDF is not a probability by @aerinykim