1  Introducción a la visualización de datos

Desde nuestra época escolar, hemos estado expuestos a una gran variedad de gráficos. En la actualidad, cualquiera puede crear un gráfico utilizando herramientas comunes como Excel. Sin embargo, existe una gran diferencia entre hacer un gráfico y hacer un buen gráfico. La mayoría de las personas pueden generar gráficos, pero pocos son capaces de diseñar visualizaciones que realmente expliquen los datos y transmitan el mensaje deseado al público objetivo.

En el mundo actual, los datos son abundantes y la necesidad de comunicarlos de manera efectiva es crucial. Una buena visualización no solo presenta datos, sino que también cuenta una historia, resalta patrones importantes y facilita la comprensión de información compleja. Aquí es donde entra en juego ggplot2, una poderosa herramienta de visualización de datos en R que nos permite crear gráficos claros, informativos y estéticamente agradables. No obstante, antes de sumergirnos en los detalles de ggplot2, es importante entender la importancia de la visualización de datos y algunos de los principios básicos que la rigen.

Nota

Existen muchas otras herramientas que sirven para visualizar datos como pueden ser: D3, Excel, Python, R, Tableau… En este curso utilizaremos el paquete de R ggplot2 dado que a lo largo del Máster será una herramienta con la que os familiarizaréis. Esta es una herramienta que se basa en una gramática de gráficos que nos permite personalizar nuestros gráficos de una forma increíble, además de proveernos de todas las ventajas de trabajar con un lenguaje de programación. A fecha de edición de este libro, ggplot2 es el paquete de R más descargado con casi 150 millones de descargas (paquetes de R por número de descargas).

Una de las ventajas de trabajar en un lenguaje de programación como R o Python es que la cantidad de paquetes y funcionalidades que existen dentro de estos es absurdamente enorme, y gracias a las comunidades que desarrollan estos paquetes podemos analizar datos de todo tipo, realizar análisis con técnicas muy enfocadas al tipo de dato que tenemos y por supuesto, generar gráficos con un altísimo grado de personalización. Es decir, con un lenguaje de programación podemos ir desde la limpieza de datos, a la exploración, el análisis, el modelado, y terminar con la generación de resultados que pueden incluir gráficas o tablas.

1.1 Ejemplos de visualización de datos

Antes de comenzar, vamos a ver una serie de ejemplos de visualizaciones de datos que nos ayudarán a entender la importancia de la visualización de datos y cómo puede ayudarnos a entender mejor la información que nos rodea.

1.1.1 Artículos científicos

Los artículos científicos son una fuente importante de información para la comunidad científica. En ellos, los autores presentan sus resultados y conclusiones, y utilizan gráficos para ilustrar sus hallazgos. A continuación, se muestra un ejemplo de un gráfico extraído de un artículo científico:

Fig. 1.1: Gráfico de barras con barras de error extraído de Modesto et al. (2021)

1.1.2 Periódicos

Los periódicos son una fuente de información para el público en general. En ellos, los periodistas utilizan gráficos para ilustrar noticias y tendencias. A continuación, se muestra un ejemplo de un gráfico extraído del periódico español El País:

Fig. 1.2: Visualización del periódico El País

En la Figura 1.2 tenemos dos tipos de figuras que seguramente todos hemos visto. Dirías que la forma de representar estos datos es adecuada?

Puede que inicialmente sea complejo de ver, pero si te fijas, aunque los dos gráficos parecen de barras con la misma estructura, verás que el superior es un gráfico de barras donde ambas barras empiezan en 0, mientras que el inferior es otro gráfico de barras donde las barras se acumulan, de forma que el final de una barra es el inicio de la siguiente. Esto trae una serie de implicaciones en la interpretación de los datos, ya que en el primer caso se pueden comparar las barras directamente, mientras que en el segundo caso, aunque se pueden comparar las barras, es más complicado ver la diferencia entre ellas. Sabrías decirme si la producción de petróleo de esquisto será mayor en 2025 o en 2040? La producción de gas de esquisto de 2040, cuánto de mayor es que la de 2010? Cinco veces mayor, siete veces mayor?

En este curso, aunque no podremos introducirnos en la teoría y fundamentos de la visualización de datos, intentaremos enseñaros a crear gráficos sencillos que muestran la información de forma clara y comunicativa siguiendo los principios básicos de la visualización de datos.

1.1.3 Aplicaciones

Hoy en día existen muchas aplicaciones que utilizan gráficos para presentar información a los usuarios, como pueden ser aplicaciones bancarias, de salud o de deportes. El siguiente ejemplo muestra la aplicación de Huawei Health:

Fig. 1.3: Visualización de la aplicación Huawei Health

Aquí podemos ver un gráfico de barras donde se representan las kcal quemadas por el usuario cada día de la útlima semana. A continuación, se muestran unos indicadores del total de kcal quemadas en la última semana y la media semanal, ya que son valores que usualmente consultamos. Finalmente, se muestra un gráfico de barras apilado con el tipo de actividad que ha consumido las kcal anteriores. Además, nos permite consultar las mismas estadísticas por día, mes y año.

1.1.4 Facturas

Si revisas tus facturas, verás que muchas de ellas incluyen gráficos para ilustrar tus gastos o consumos. A continuación, se muestra un ejemplo de una factura de Naturgy:

Fig. 1.4: Visualización de la factura de Naturgy

Aquí podemos ver dos gráficos. Una gráfico de barras apilado y un gráfico circular. Desafortunadamente, muchos profesionales utilizan este tipo de gráficos para presentar información, pero no son los más adecuados para ello. Por ejemplo, en el gráfico circular, es difícil comparar las proporciones de los diferentes conceptos, ya que no es fácil comparar ángulos. Para tener una idea clara de lo que estamos comparando, tenemos que acudir a las etiquetas, que no es lo más adecuado.

Advertencia

Los gráficos circulares son utilizados por un montón de gente, y odiados por los expertos en visualización de datos. En el siguiente ejemplo puedes ver un ejemplo de por qué no son recomendables.

Fig. 1.5: Comparación de gráficos circulares y de barras

En el gráfico anterior, se comparan los mismos datos utilizando un gráfico circular y un gráfico de barras. Cuál de los dos gráficos te parece más fácil de interpretar?

Por otro lado, en el gráfico de barras apilado, es sencillo comparar la primera barra ya que todas tienen el mismo origen (0). Sin embargo, comparar las barras siguientes es más complicado, ya que no podemos comparar directamente las alturas de las barras. Además, al no tener un eje de referencia, no podemos saber cuánto representa cada barra.

1.1.5 Otros

En general, la visualización de datos está presente en muchos aspectos de nuestra vida diaria, desde la televisión, las redes sociales hasta la ciencia. Desafortunadamente, en este curso no nos dará tiempo a cubrir muchos aspectos de la visualización de datos y de las buenas prácticas, si no que estará enfocado principalmente en aprender a utilizar ggplot2 para crear gráficos sencillos pero efectivos.

Algo que sí quiero decir antes de comenzar con el material, es que antes de generar una visualización es mejor detenernos a pensar qué variables queremos mostrar, y pensar cuál es la geometría que mejor se puede adaptar para comunicar los datos. Vamos a ver un ejemplo rápido de como visualizar las detecciones de Cerambyx sp. en tres provincias de Andalucía. Vamos a graficar tres variables:

  • Provincia: variable categórica

  • Año: variable categórica ordinal

  • Detecciones: variable continua

Una opción que se utiliza de forma común es la siguiente:

Esta opción nos da toda la información que queremos. Pero es esta la mejor forma de representar estos datos? Para interpretarlos tenemos que mirar muchas veces a las barras y se hace algo tedioso. Fíjate como el siguiente gráfico nos muestra los mismos datos, y con un solo vistazo podemos sacar muchas conclusiones:

Con este simple ejemplo quiero destacar que muchas veces intentamos hacer un gráfico muy complejo cuando tenemos una opción muy sencilla que va a comunicar los datos de manera mucho más efectiva.

Referencias

Modesto, Inês, Lieven Sterck, Vicent Arbona, Aurelio Gómez-Cadenas, Isabel Carrasquinho, Yves Van de Peer, y Célia M. Miguel. 2021. «Insights Into the Mechanisms Implicated in Pinus pinaster Resistance to Pinewood Nematode». Frontiers in Plant Science 12. https://doi.org/10.3389/fpls.2021.690857.