Clase 2: Introducción al Tidyverse

Clase 2: Introducción al Tidyverse

Mar 11, 2020 · 5 min read
Recuerda que puedes ver las Diapositivas haciendo clic en el botón “Slides” arriba.

Introducción al Tidyverse: La Filosofía de Datos Limpios para el Análisis Financiero con R

💡 El 80% del tiempo de un científico de datos se consume limpiando y preparando la data. En el sector financiero, donde la precisión y la rapidez son vitales para la Gestión de Riesgos y el Análisis Cuantitativo, esta ineficiencia es un costo inaceptable.

Afortunadamente, el ecosistema de R ofrece una solución robusta y coherente: El Tidyverse. Esta colección de paquetes, diseñada por expertos, introduce una filosofía de datos limpios y estructurados (Tidy Data) que transforma la manipulación y visualización de datos de una tarea tediosa a un proceso elegante y eficiente.

En este artículo, exploraremos la base del Tidyverse y cómo sus herramientas principales (como dplyr, tidyr y ggplot2) son indispensables para cualquier profesional que busque aplicar la Ciencia de Datos con rigor y claridad en el entorno financiero.


1. La Filosofía Tidy (Datos Limpios)

El concepto Tidy (limpio) es la piedra angular del Tidyverse. Como dijo Tolstói: “Las base de datos limpias, son todos iguales; pero la data sucia, hay de muchas maneras”.

Para que una base de datos se considere “limpia” (Tidy Data), debe cumplir con tres reglas básicas de estructura:

  1. Cada variable debe tener su propia columna.
  2. Cada observación debe tener su propia fila.
  3. Cada tipo de unidad (valor) debe ser una celda.

Esta estructura garantiza que las comparaciones entre grupos de observaciones (ej. promedio del Grupo A vs. Grupo B) sean sencillas de realizar, en lugar de complicarse con comparaciones entre columnas.

2. El Ecosistema Tidyverse: Herramientas Clave

El Tidyverse es una colección de paquetes de R diseñados para la ciencia de datos, todos compartiendo una filosofía de diseño, gramática y estructuras de datos subyacente.

2.1. dplyr: Manipulación Elegante de Datos

dplyr provee una gramática de manipulación que resuelve los retos más comunes de la preparación de datos. Sus “verbos” principales se convierten en el flujo de trabajo estándar para cualquier modelo:

  • filter(): Para seleccionar filas (ej. filtrar outliers o un segmento de riesgo específico).
  • select(): Para seleccionar columnas (variables).
  • group_by() y summarise(): Esencial para calcular métricas clave (ej. promedio de horas dedicadas a actividades diarias por género o la tasa de empleo informal).
  • mutate(): Para crear nuevas variables (ej. variables derivadas para un scoring de crédito).

2.2. ggplot2: Visualización de Calidad Profesional

ggplot2 es un sistema para crear gráficos declarativos basado en “The Grammar of Graphics”. Permite crear gráficos desde básicos hasta realmente profesionales (incluso publicaciones prestigiosas como el FT usan ggplot2). La clave es que tú provees la data y declaras los elementos, y ggplot2 se encarga del renderizado.

2.3. Otros Pilares Fundamentales

  • tidyr: Sirve para transformar datos “sucios” en el formato Tidy (limpio), siendo útil para tareas de transposición de datos.
  • readr: Para leer data rectangular de forma eficiente (CSV, TSV, FWf).
  • tibble: Versiones modernas de data frames que ayudan a identificar problemas antes.
  • tidymodels: Colección para hacer modelos de Machine Learning de una forma Tidy.

3. ¿Cómo Adquirir el Nivel de R que Demanda el Mercado?

El aprendizaje de R puede compararse con la adquisición de un nuevo idioma:

Nivel de CompetenciaEn el Idioma InglésEn el Lenguaje R (Tidyverse)
BásicoVerbo to be en presente simple. Vocabulario y gramática básica para defenderse.Verbos básicos de dplyr. Poder usar R para trabajos e investigaciones, graficar, hacer tablas, crear reportes automáticos básicos y usar funciones básicas de Git.
IntermedioNivel TOEFL (90-105). Capacidad profesional de comunicación.Desarrolla reportes, presentaciones y aplicaciones muy decentes automáticos. Puede automatizar varios procesos y crear paquetes.
AvanzadoNivel CAE o CPE. Alto nivel de educación, incluso superior al nativo promedio.Desarrolla todo lo que desee y lidia prácticamente con cualquier problema. Maneja filosofías de programación y publica paquetes en CRAN. Todo es posible.

4. Casos Reales: Aplicación del Tidyverse

El Tidyverse es ideal para analizar data compleja y poco estructurada proveniente de entidades públicas. Algunos ejemplos cubiertos en el taller que demuestran la necesidad de datos limpios:

  • Estadísticas de Reactiva Perú: Análisis de datos del MEF con la necesidad de limpieza de data debido a formatos inconsistentes (fila y columna de más).
  • Deuda de Gobiernos Locales: Requiere consolidar y limpiar múltiples excels con muchas hojas, siendo el Tidyverse esencial para armar una base de datos histórica coherente.
  • Replicación de Papers: Tareas de mayor nivel, como la replicación de un paper de economía conductual de revistas como Nature, requieren una manipulación de datos rigurosa y transparente.

Conclusión

El Tidyverse es más que una colección de paquetes de R; es una filosofía de trabajo que optimiza la eficiencia del Quant y del científico de datos. Adoptar este framework no solo acelera la preparación de datos, sino que garantiza que tus análisis de Riesgo y Finanzas Cuantitativas sean siempre limpios, reproducibles y profesionales.

Si tu objetivo es alcanzar ese Nivel Intermedio o Avanzado de R y transformar la gestión de datos de tu organización, te invito a revisar el material de mis talleres o solicitar una contización para el desarrollo de talleres personalizados.

➡️ Accede a mi GitHub y practica: Descarga y aplica los ejemplos de manipulación de datos aquí para llevar tu nivel al siguiente escalón.