本文主要聊資料分析中統計學的作用。資料分析字面理解就是對資料進行分析,可分為有目的分析與探索性分析。而資料可粗略分為,數值型資料和分類資料。統計學是分析資料的一套方法,是對資料中的資訊進行加工提煉的方法。而那些資訊就是我們想知道或者探索的答案。

比如,給你全班同學的考試成績(數值型資料),現在老師想知道全班這次考得怎麼樣。那麼計算出全班成績的平均值就可以初步瞭解成績的集中點在哪。但是如果出現某一位同學的成績非常高、或者非常低,那麼就會明顯的拉高、或者拉低平均值。也就是說單一使用平均值去描述資料的集中趨勢是有可能出現錯誤的。怎麼辦呢,才能更準確的提煉出成績的集中趨勢這一資訊。統計學引入眾數、中位數輔助平均數,去描述資料的集中趨勢這一資訊。如果發現眾數或者中位數與平均數相差太大,就有可能是極值影響結果,這時中位數或者眾數才是描述資料集中趨勢的測度值。因此,三者結合就可以避免極值帶來的不良影響,完成對資料集中趨勢的描述。

現在有了集中趨勢,我們知道資料更多的是集中在哪裡。那麼問題來了,這個集中趨勢只是一種趨勢,是資料集平均後會集中在改點,但這個趨勢到底是大還是小呢,也就是說資料到底有多靠近平均值。統計學引入了方差、標準差的概念,完成了對資料離散程度的描述。從數學公式解讀方差,他的意義就是每個單獨的資料點與均值差的平方,求和再平均的值。平方是為了消除負號,有的資料點大於平均值、有的會小於,不消除負號直接相加,正負抵消,並不能反映每個資料與平均值距離的和。這時你可能會問,平方同樣不精準啊,平方後求和再平均,算的是每個資料與平均值的平均距離的平方。確實是這樣的,既然多算了平方,那麼再開方就完了,這時就得到了標準差。它的意義就是資料點與平均值的距離的平均值。也就反映了整個資料集距離平均值的距離的趨勢,即資料集的離散程度。

現在我們知道了資料的集中趨勢,以及描述集中趨勢大小的離散程度。那麼問題來了,剛才討論的離散程度是對整個資料集進行觀察的。但是我想知道的是,在同樣的離散程度下,是平均值左邊的資料多,還是右邊的資料多,還是左右都差不多。這個有什麼意義呢,我可以粗略知道我隨便抽取一個學生的成績,他的成績大於平均值的機率是等於50%呢,還是大於50%,或者小於50%。這時,統計學與機率論聯絡起來了。統計學引入了分佈的概念,來描述的資料的偏態和峰態。什麼是分佈,就是把資料進行繪圖,對每一個數據點進行計數,橫軸是資料點的值,縱軸是該資料點出現的次數。那什麼是偏態,偏態就是描述資料中多少資料在平均值的左邊或者右邊。什麼是峰態,峰態就是,在同一偏態下,比如左右資料一樣多的情況下,資料集中在平均值周圍的程度。再通俗的理解就是,偏態說的是橫軸方向上,觀察平均值兩邊的不同資料點,左邊不同資料點多,就叫左偏,右邊多就叫右偏。峰態就是縱軸方向上,觀察每一個相同資料點出現的次數多少,出現次數越多,對應的縱軸位置就越高,觀察的是同一資料點的次數。偏態看左右,峰態看高矮。

透過以上的計算繪圖,現在我們從資料的集中趨勢、離散程度、偏態峰態的度量三個方面瞭解了資料面貌,我們也可以基於以上三個方面的結果,回答一些與資料有關的問題。至此,就是統計學兩大類描述統計學與預測統計學中描述統計學的一些簡單內容。

描述統計學主要是對資料集本身從各個方面進行描述、瞭解,從而回答一些與資料集本身有關的問題。預測統計學也叫推論統計學,是根據已有的結果做出推測,是基於資料集而高於資料集的去回答問題。剛剛在峰態與偏態中已經小試牛刀粗略提及了機率問題,但是不能得出精確的結果。比如我想知道,全年級中隨便抽取一個學生,該學生的成績大於平均值的機率。這個就是推論統計學中的內容,需要對分佈進行進一步的瞭解。

如果把以上考試成績的例子換成某一次賽馬的得分,從科學的角度去判斷哪一匹馬更有可能贏。你算出來了機率,那麼買哪一匹馬,還需要別人告訴你麼。養馬專家從馬的肌肉、面貌、精氣神判斷跑贏的機率,也就是基於積累的經驗。而你是基於累計的資料,科學分析得出的結果,兩者都是有很大的參考價值的。你說統計有沒有用,你說機率有沒有用,何況現在還是大資料時代。那麼多的資料,正等著我們去探索答案。也許,真理就在其中。