R的原生的summary函式,只是報告幾個常規的指標。

skimr:做更好的描述性統計

skimr:做更好的描述性統計

其實,我們想關注的變數還有,方差,缺失值,等指標。

skimr包則很好的滿足了這一需求,且支援自定義函式,進行擴充套件。

skimr:做更好的描述性統計

skimr:做更好的描述性統計

安裝命令

devtools::install_github(“hadley/colformat”)

devtools::install_github(“ropenscilabs/skimr”)

簡單的效能測試

library(tibble)

number <- 6e6

dta <- tibble(x1=sample(c(iris$Sepal。Length,NA),number,replace =TRUE),

x2=sample(c(iris$Sepal。Width,NA),number,replace =TRUE),

x3=sample(c(iris$Species,NA),number,replace =TRUE))

object。size(dta)/(1024^2)

system。time(skimr::skim(dta))

system。time(summary(dta))

> object。size(dta)/(1024^2)

114。4 bytes

> system。time(skimr::skim(dta))

使用者 系統 流逝

11。61 1。69 13。33

> system。time(summary(dta))

使用者 系統 流逝

0。99 0。19 1。17

一百多M的資料,skim要比summary慢不少,但是還是可以用的。如果是GB級別的資料,用summary會更好。