R的原生的summary函式,只是報告幾個常規的指標。
其實,我們想關注的變數還有,方差,缺失值,等指標。
skimr包則很好的滿足了這一需求,且支援自定義函式,進行擴充套件。
安裝命令
devtools::install_github(“hadley/colformat”)
devtools::install_github(“ropenscilabs/skimr”)
簡單的效能測試
library(tibble)
number <- 6e6
dta <- tibble(x1=sample(c(iris$Sepal。Length,NA),number,replace =TRUE),
x2=sample(c(iris$Sepal。Width,NA),number,replace =TRUE),
x3=sample(c(iris$Species,NA),number,replace =TRUE))
object。size(dta)/(1024^2)
system。time(skimr::skim(dta))
system。time(summary(dta))
> object。size(dta)/(1024^2)
114。4 bytes
> system。time(skimr::skim(dta))
使用者 系統 流逝
11。61 1。69 13。33
> system。time(summary(dta))
使用者 系統 流逝
0。99 0。19 1。17
一百多M的資料,skim要比summary慢不少,但是還是可以用的。如果是GB級別的資料,用summary會更好。