1。 引言

《機率論》是一門理工科大學生必修課程,學統計學的同學們更是繞不開這門課程以及相關的高階課程,例如《高等數理統計》,《多元統計分析》等等。在學習這些課程的同時,同學們是否感覺晦澀難懂,又或是感覺簡單輕鬆但就是知識碎片,難以形成完成的邏輯框架?

統計學(1)|白話統計學發展(含統計學必知必會)

本文ZZ與大家一起白話統計學的發展歷程,以符合常理的順序描述這一神奇學科的程序,讓大家知其然,並探其所以然。

特別提示:本文不是科普文,不會出現一些純理論的知識。本文是個人思考後輸出的合乎邏輯的統計學發展歷程,旨在為廣大對統計學感興趣的同學提供一個順滑的學習路線和一個整體的邏輯框架。

2。 何為統計?

首先,對於統計的這個話題,需要明確我們在討論什麼?

熟悉ZZ的知友知道,ZZ解釋概念都是一個套路,就是顧名思義。顧名思義,統是總括,概括、計是計算,合在一起就是概括的計算。所以,統計是指對某個事件進行概括性的計算,以得出支撐我們結論的統計資料。

那麼,概括性的計算都包含什麼呢?這個問題相信大多數同學都能說上均值,方差,最大值,最小值,中位數,分位數;甚至一些衍生的變異係數,協方差,偏度,散度等等,下面我們就從最簡單的均值和方差說起,來帶入這統計的世界。

3。 統計的發展歷程

我們先用一張圖片展示一下,統計學的發展歷程,然後逐一敘述:

統計學(1)|白話統計學發展(含統計學必知必會)

1)很久很久以前,古代人們就掌握了計數的技術,主要用於記錄食物的數量。但是隨著人們智慧的增長,人們不再侷限於計數,對於記錄下來的資料,總有人會去探索一些有趣的事情。其中最簡單的一種計算就是

均值

,計算一組資料的平均數來衡量這組

資料的平均水平

,是多麼的自然而和諧。

統計學(1)|白話統計學發展(含統計學必知必會)

2)有了均值來衡量平均水平,那麼人們自然會關注

個體與平均水平的差異

,這是人性使然。例如當你知道你所在行業的平均月工資是40k,你會立刻和自己比較,發現自己是4K,在質疑這個平均水平的同時,你會想到居然有同事76K?這個行業的工資水平可以差異這麼大?那麼差異到底有多大呢,我們如何衡量這個差異呢?

方差

應運而生,

基於均值來衡量整體水平之間的差異程度

3)有了均值和方差,我們需要總結一下這時的成果;存在某個事件的一組記錄資料,我們可以計算統計值——均值和方差來分別衡量這組數字的平均水平和差異程度。

但是總是說一組資料不方便,這時我們需要定義一些名詞:

事件,整體和個體。

其含義也無需多說。

4)隨著統計學繼續發展,那麼對於某個事件,我們使用類似均值,方差等等的指標來衡量這個事件某方面的水平。人們很快發現,我們之前定義的整體只是當前收集到全部資料,對於某個事件我們不可能窮盡蒐集到它的所有資料,這所有的資料我們稱之為

總體

。之前定義為整體的那部分資料稱為這個總體下的一份

樣本

5)樣本的資料表現並不穩定,但是在多次試驗的情況下,事件的某種情況發生的頻率趨於穩定,結合極限的概念,我們給總體中事件出現的頻率一個定義:

機率

進而為了理解某個事件的規律,我們希望窮盡事件所有可能的機率,因此我們需要知道總體資料大概以什麼樣的方式呈現。

為了刻畫總體的模樣,

分佈

又應運而生,

即事件所有可能的機率分佈

。有了分佈的概念,隨著人們研究各種不同事件的分佈形式,進化出

0-1分佈(伯努利分佈)、二項分佈,泊松分佈,指數分佈,正態分佈

等等,正態分佈的發現是一個里程碑式的事件。

統計學(1)|白話統計學發展(含統計學必知必會)

6)對於總體這種充滿玄學的東西,人們一般很難弄到,只能透過有限的一份或幾份樣本資料來研究總體的分佈。樣本我們可以很方便的計算頻率,但是頻率能估計出機率嗎?伯努利說可以的,並提出了

大數定律

樣本夠大,頻率趨近機率

,那麼好,這個事能成。

7)我們關注總體的分佈,其實主要關注總體的一些統計特徵,即前面提到的均值,方差,比例等等,自然而然我們研究樣本的這些統計特徵去刻畫總體。我們稱樣本的這些統計特徵為

統計量

,總體的統計特徵就是

引數

統計學(1)|白話統計學發展(含統計學必知必會)

8)由於得到樣本的過程(抽樣)是一個隨機過程,那個樣本的統計量也是一個變數,區別於總體的引數是一個定量;研究變數我們還是要看它的分佈,我們稱這個分佈為

抽樣分佈

9)最開始就是研究最簡單樣本均值;我們自然會想不同分佈的總體的樣本的均值是什麼分佈呢?棣莫弗說,不用Battle了,是

正態分佈

,經過了100多年的不斷證明之後大家服了,命名為棣莫佛-拉普拉斯定理,還有一個別名:

中心極限定理

(機率論中首席定理)誕生。

10)後來人們發現抽樣數量的大小,樣本均值的抽樣分佈會有一些差異,小樣本是一個比

正態分佈

有點差異的分佈,我們稱之為

t分佈

,大樣本下還是正態分佈。進而分析樣本方差的時候,我們又定義了

卡方分佈

F分佈

(樣本方差可以轉化為卡方分佈)。

統計學(1)|白話統計學發展(含統計學必知必會)

11)研究到這裡,我們已經可以透過樣本的統計量來刻畫總體引數了。當然這是從理論上嚴謹的推導的,另一種獲取統計量的分佈的方式是自助法,那是另闢蹊徑,這裡不詳細敘述了。既然樣本可以刻畫總體的分佈,那麼人們應用這些理論,開始了

假設檢驗

的理論研究。

12)在熟悉了以上這些理論的基礎上,假設檢驗其實是一個很經典的數學思維:

你說怎麼滴就怎麼滴(

原假設

);按照你認為的理論,事件會怎麼發展呢(統計量的抽樣分佈)?實際中又是怎麼樣(統計量實際值-計算P值)?實際與假設是否一致(P值和置信水平)?依據以上步驟得出可信結論。

13)統計學發展至此,已經覆蓋大部分日常生活中的應用,ZZ敘述的這個發展過程,希望指引廣大愛好的統計學的同僚更加順滑的學習統計學知識。

4。 統計學必知必會

如果大家認可以上的統計學發展過程,這其中的必知必會就呼之欲出:

統計學(1)|白話統計學發展(含統計學必知必會)

均值、方差、最大值、最小值、中位數等統計值的概念;

事件、總體、樣本、個體的概念;

頻率、機率、分佈等概念,瞭解常用分佈,如二項分佈、正態分佈等的分佈函式和它們的均值和方差、以及衍生的獨立、聯合分佈和邊緣分佈等概念;

大數定律、統計量、抽樣分佈的概念,瞭解常見的抽樣分佈,如卡方分佈、t分佈和F分佈;

中心極限定理及其應用假設檢驗。

5。 小結

以上統計學發展和必知必會覆蓋大部分日常統計工作,也涉及了應用最廣範的假設檢驗,但是本文旨在為學習統計學的同學提供一個指引,對於其中具體理論和實際應用並未多涉及。後續,ZZ將繼續完善統計學的相關理論,並透過一篇A\B測試的理論篇,將以上知識串起來應用,希望關注的同學們不要錯過這些精華。

P。S。 統計學中抽樣方法和貝葉斯理論不在這套理論框架內,暫未涉及,如有興趣,敬請期待。

想要更多方面的知識分享嗎?可以關注我的其他專欄:

資料科學-機器學習:這裡有常用的機器學習演算法非常通俗的解釋,也有不同演算法之間的比較,在這裡,你會發現,演算法其實就在我們的生活中。

資料科學-軟體技能:在這裡,你可以快速掌握入門資料科學領域所需的技能,讓你在大資料的世界中,能夠隨心所欲的把玩資料,讓資料給你答案。

資料科學-統計學:在這裡你可以瞭解統計學是如何發展的,並且在實際生活和工作中起到了什麼至關重要的作用;這裡,同樣有全網最全面、邏輯最清晰的AB測試流程總結,我力求構建起理論與實踐的橋樑,讓大家將統計學知識在工作和生活中運用自如。

資料分析師養成之路:資料分析師現如今風頭正盛,各種培訓機構,社群組織鼓吹7天、一月成為資料分析師,或許這皆有可能。但是我認為想要成為一名真正的資料分析師,是需要不斷成長的,需要逐步構建起一套能夠洞察事物的邏輯思維與分析框架,不止是在工作,同樣,也在生活中,這是一個漫長的過程。