Tipos de visualización

En los siguientes capítulos nos introduciremos en los tipos de visualización más comunes en el análisis de datos. Existen muchas formas de crear una jerarquía de tipos de visualización, pero en este curso nos enfocaremos en una clasificación según el tipo de visualización y la cantidad de variables que se desean representar. En este sentido, la Figura 1 muestra una clasificación de algunas de las visualizaciones más comunes y que veremos a lo largo del curso.

Fig. 1: Clasificación de los tipos de visualización. Fuente: Cédric Scherer, rstudio::conf 2022

Iris

En los ejercicios de muestra, trabajaremos con el dataset de iris, que viene dentro del paquete {datasets} de R. Este dataset contiene información sobre 150 flores de iris, con 4 variables numéricas y una variable categórica que indica la especie de la flor Figura 2.

Fig. 2: Especies de flores del dataset iris. Fuente: Datacamp

A continuación mostramos la estructura del dataset utilizando la función {skimr::skim}:

skim(iris)
Data summary
Name iris
Number of rows 150
Number of columns 5
_______________________
Column type frequency:
factor 1
numeric 4
________________________
Group variables None

Variable type: factor

skim_variable n_missing complete_rate ordered n_unique top_counts
Species 0 1 FALSE 3 set: 50, ver: 50, vir: 50

Variable type: numeric

skim_variable n_missing complete_rate mean sd p0 p25 p50 p75 p100 hist
Sepal.Length 0 1 5.84 0.83 4.3 5.1 5.80 6.4 7.9 ▆▇▇▅▂
Sepal.Width 0 1 3.06 0.44 2.0 2.8 3.00 3.3 4.4 ▁▆▇▂▁
Petal.Length 0 1 3.76 1.77 1.0 1.6 4.35 5.1 6.9 ▇▁▆▇▂
Petal.Width 0 1 1.20 0.76 0.1 0.3 1.30 1.8 2.5 ▇▁▇▅▃

En resumen, tenemos 50 muestras de cada una de las tres especies (I. versicolor, I. setosa y I. virginica) a las cuales hemos medido cuatro variables cuantitativas.

Gapminder

También utilizaremos el dataset de gapminder que viene dentro del paquete de R gapminder. Este dataset tiene las siguientes variables:

  • country: país

  • continent: continente

  • year: años desde el 1952 hasta 2007 de 5 en 5 (1952, 1957, 1962 …)

  • lifeExp: esperanza de vida en ese país para cada año

  • pop: población del país para cada año

  • gdpPercap: PIB per cápita

gapminder::gapminder
# A tibble: 1,704 × 6
   country     continent  year lifeExp      pop gdpPercap
   <fct>       <fct>     <int>   <dbl>    <int>     <dbl>
 1 Afghanistan Asia       1952    28.8  8425333      779.
 2 Afghanistan Asia       1957    30.3  9240934      821.
 3 Afghanistan Asia       1962    32.0 10267083      853.
 4 Afghanistan Asia       1967    34.0 11537966      836.
 5 Afghanistan Asia       1972    36.1 13079460      740.
 6 Afghanistan Asia       1977    38.4 14880372      786.
 7 Afghanistan Asia       1982    39.9 12881816      978.
 8 Afghanistan Asia       1987    40.8 13867957      852.
 9 Afghanistan Asia       1992    41.7 16317921      649.
10 Afghanistan Asia       1997    41.8 22227415      635.
# ℹ 1,694 more rows