En los siguientes capítulos nos introduciremos en los tipos de visualización más comunes en el análisis de datos. Existen muchas formas de crear una jerarquía de tipos de visualización, pero en este curso nos enfocaremos en una clasificación según el tipo de visualización y la cantidad de variables que se desean representar. En este sentido, la Figura 1 muestra una clasificación de algunas de las visualizaciones más comunes y que veremos a lo largo del curso.
Iris
En los ejercicios de muestra, trabajaremos con el dataset de iris, que viene dentro del paquete {datasets} de R. Este dataset contiene información sobre 150 flores de iris, con 4 variables numéricas y una variable categórica que indica la especie de la flor Figura 2.
A continuación mostramos la estructura del dataset utilizando la función {skimr::skim}:
Data summary
| Name |
iris |
| Number of rows |
150 |
| Number of columns |
5 |
| _______________________ |
|
| Column type frequency: |
|
| factor |
1 |
| numeric |
4 |
| ________________________ |
|
| Group variables |
None |
Variable type: factor
| Species |
0 |
1 |
FALSE |
3 |
set: 50, ver: 50, vir: 50 |
Variable type: numeric
| Sepal.Length |
0 |
1 |
5.84 |
0.83 |
4.3 |
5.1 |
5.80 |
6.4 |
7.9 |
▆▇▇▅▂ |
| Sepal.Width |
0 |
1 |
3.06 |
0.44 |
2.0 |
2.8 |
3.00 |
3.3 |
4.4 |
▁▆▇▂▁ |
| Petal.Length |
0 |
1 |
3.76 |
1.77 |
1.0 |
1.6 |
4.35 |
5.1 |
6.9 |
▇▁▆▇▂ |
| Petal.Width |
0 |
1 |
1.20 |
0.76 |
0.1 |
0.3 |
1.30 |
1.8 |
2.5 |
▇▁▇▅▃ |
En resumen, tenemos 50 muestras de cada una de las tres especies (I. versicolor, I. setosa y I. virginica) a las cuales hemos medido cuatro variables cuantitativas.
Gapminder
También utilizaremos el dataset de gapminder que viene dentro del paquete de R gapminder. Este dataset tiene las siguientes variables:
country: país
continent: continente
year: años desde el 1952 hasta 2007 de 5 en 5 (1952, 1957, 1962 …)
lifeExp: esperanza de vida en ese país para cada año
pop: población del país para cada año
gdpPercap: PIB per cápita
# A tibble: 1,704 × 6
country continent year lifeExp pop gdpPercap
<fct> <fct> <int> <dbl> <int> <dbl>
1 Afghanistan Asia 1952 28.8 8425333 779.
2 Afghanistan Asia 1957 30.3 9240934 821.
3 Afghanistan Asia 1962 32.0 10267083 853.
4 Afghanistan Asia 1967 34.0 11537966 836.
5 Afghanistan Asia 1972 36.1 13079460 740.
6 Afghanistan Asia 1977 38.4 14880372 786.
7 Afghanistan Asia 1982 39.9 12881816 978.
8 Afghanistan Asia 1987 40.8 13867957 852.
9 Afghanistan Asia 1992 41.7 16317921 649.
10 Afghanistan Asia 1997 41.8 22227415 635.
# ℹ 1,694 more rows