一. 背景概述
提到圖表,大家最熟悉的莫過於
曲線圖
、柱狀圖、餅圖等,但是對於圖表的系統性認識及不同場景下的應用常常會有所欠缺,即就是做到我有什麼資料,需要哪些圖表進行資訊表達。此次主要對於常用圖表(分佈類)做以梳理。
二. 分佈類圖表
1。箱形圖
2。
散點圖
3。直方圖
4。氣泡圖
5。熱力圖
6。曲線圖
三. 圖表說明
1. 箱形圖
箱形圖又稱盒須圖、盒式圖或箱線圖,是一種用作顯示一組資料分佈情況的統計圖。
如果一個數據集中包含了一個分類變數和一個或者多個連續變數,那麼你可能會想知道連續變數會如何隨著分類變數水平的變化而變化,而箱形圖就可以提供這種方法,它只用了5個數字對分佈進行概括,即一組資料的最大值、最小值、中位數、下四分位數及上四分位數。對於資料集中的異常值,通常會以單獨的點的形式繪製。箱形圖可以水平或者垂直繪製。
從箱形圖中我們可以觀察到:
一組資料的關鍵值:中位數、最大值、最小值等。
資料集中是否存在異常值,以及異常值的具體數值。
資料是否是對稱的。
這組資料的分佈是否密集、集中。
資料是否扭曲,即是否有偏向性。
適用場景:
2. 散點圖
散點圖也叫 X-Y 圖,它將所有的資料以點的形式展現在
直角座標系
上,以顯示變數之間的相互影響程度,點的位置由變數的數值決定。
對於那些變數之間存在密切關係,但是這些關係又不像數學公式和物理公式那樣能夠精確表達的,散點圖是一種很好的圖形工具。但是在分析過程中需要注意,這兩個變數之間的相關性並不等同於確定的因果關係,也可能需要考慮其他的影響因素。
適用場景:
3. 直方圖
1)
頻數分佈直方圖
適用場景:
2)非標準的直方圖
適用場景:
附註:直方圖與柱狀圖
柱狀圖是以矩形的長度表示每一組的頻數或數量,其寬度(表示類別)則是固定的,利於較小的資料集分析。
直方圖是以矩形的長度表示每一組的頻數或數量,寬度則表示各組的組距,因此其高度與寬度均有意義,利於展示大量資料集的統計結果。
由於分組資料具有連續性,直方圖的各矩形通常是連續排列,而柱狀圖則是分開排列。
4. 氣泡圖
氣泡圖是一種多變數圖表,是散點圖的變體,也可以認為是散點圖和百分比區域圖的組合。
氣泡圖最基本的用法是使用三個值來確定每個資料序列,和散點圖一樣,氣泡圖將兩個維度的資料值分別對映為
笛卡爾座標系
上的座標點,其中 X 和 Y 軸分別代表不同的兩個維度的資料,但是不同於散點圖的是,氣泡圖的每個氣泡都有分類資訊(他們顯示在點旁邊或者作為圖例)。每一個氣泡的面積代表第三個數值資料。
需要注意的是,氣泡圖的資料大小容量有限,氣泡太多會使圖表難以閱讀。但是可以透過增加一些互動行為彌補:隱藏一些資訊,當滑鼠點選或者懸浮時顯示,或者新增一個選項用於重組或者過濾分組類別。
適用場景:
5. 熱力圖
熱力圖(Heat Map),“熱力圖”一詞最初是由軟體設計師 Cormac Kinney 於 1991 年提出並創造的,用來描述一個 2D 顯示實時
金融市場
資訊。最開始的熱力圖,是矩形色塊加上顏色編碼。經過多年的演化,習語上的熱力圖,如今更規範,更被大多數人理解的是這種經過平滑模糊過的
熱力圖譜
。
熱力圖是非常特殊的一種圖,其使用場景通常比較有限。AntV 中所定義的熱力圖是兩個連續資料分別對映到 x、y 軸。第三個連續資料對映到顏色,這個資料通常有兩種獲取途徑辦法:
從原始資料裡取出相應資料欄位,直接輸入。
透過封箱和計數統計,得到區域資料密度元資料並對映到顏色。
注意以下幾點:
熱力圖尤其關注
分佈
。
熱力圖可以不需要座標軸,其背景常常是
圖片
或
地圖
。
熱力圖一般情況用其專有的色系
彩虹色系
(rainbow)
適用場景:
6 .曲線圖
分佈曲線圖展示的是一種機率分佈,也是一種同
統計學
緊密結合的圖表。分佈曲線是一種對稱的
鐘形曲線
,具有均數等於0,標準差等於1的特點,從而使
標準分數
在實際運用時非常有用。
分佈曲線圖由以下元素構成:
橫軸:表示自變數
縱軸:表示因變數
表示機率分佈的分佈曲線
歡迎參與原創分享,你的優秀,應該被更多人關注與學習!