Ciencia de Datos: Análisis de Datos con Aplicaciones Interactivas

Programa del curso — 4 sesiones × 2 horas

Autor/a

Manuel Spínola

Fecha de publicación

29 de mayo de 2026

1 Información general

Modalidad Virtual (sincrónica)
Fechas

23 y 25 de junio

30 de junio - 2 de julio

Horario 17.00 - 19.00
Duración 4 sesiones × 2 horas (máximo)
Plataforma Zoom
Instructor Manuel Spínola (mspinola@una.cr)
Contacto Yoselyn Díaz (asistentecontableicomvis@una.ac.cr)
Inversión $102,00

2 Descripción general

Este curso cubre los fundamentos del análisis de datos utilizando tres aplicaciones interactivas desarrolladas específicamente para el aprendizaje: StatFlow, StatModels y StatML. A través de 4 sesiones, los participantes explorarán, modelarán e interpretarán datos sin necesidad de escribir código, concentrándose en los conceptos estadísticos y el análisis de resultados.

El curso abarca desde la estadística descriptiva y la comparación de grupos, hasta modelos estadísticos (lineales, generalizados, aditivos y mixtos) y algoritmos de machine learning (Random Forest, XGBoost). A lo largo de todas las sesiones se adopta un enfoque basado en estimación — tamaños de efecto e intervalos de confianza — en lugar del enfoque tradicional centrado en valores p.


3 Objetivos del curso

Al finalizar el curso, los participantes serán capaces de:

  • Describir y visualizar distribuciones de datos
  • Comparar medias y proporciones interpretando el tamaño del efecto estandarizado y no estandarizado
  • Estimar correlaciones e interpretar su magnitud e incertidumbre
  • Ajustar e interpretar modelos lineales generales y generalizados
  • Aplicar modelos aditivos generalizados (GAM) para relaciones no lineales
  • Ajustar modelos con efectos mixtos para datos jerárquicos
  • Construir y evaluar modelos de machine learning
  • Contrastar cuándo usar modelos estadísticos versus algoritmos de ML

4 Enfoque estadístico

Este curso adopta un enfoque basado en estimación en lugar de la dicotomía significativo/no significativo. El énfasis está en:

  • Tamaños de efecto — ¿qué tan grande es el efecto, estandarizado y en unidades originales?
  • Intervalos de confianza — ¿cuál es la incertidumbre de la estimación?
  • Relevancia práctica — ¿el efecto es biológicamente o prácticamente importante?

Este enfoque es consistente a lo largo de las cuatro sesiones, desde la comparación de grupos hasta los modelos más complejos.


5 Aplicaciones utilizadas

Aplicación Descripción
StatFlow Estadística descriptiva, comparación de medias y proporciones, correlación
StatModels Modelos lineales (LM), generalizados (GLM), aditivos (GAM) y mixtos
StatML Machine learning: Random Forest, XGBoost y otros algoritmos

Las aplicaciones permiten cargar datos, ajustar parámetros y visualizar resultados en tiempo real, sin necesidad de escribir código.


6 Estructura del curso

Sesión App Tema
1 StatFlow Estadística descriptiva, comparación de grupos y correlación
2 StatModels Modelos lineales y generalizados (LM, GLM)
3 StatModels Modelos aditivos y mixtos (GAM, LMM)
4 StatML Machine learning: RF, XGBoost y comparación de enfoques

7 Sesión 1 — Estadística descriptiva, comparación de grupos y correlación

Duración: hasta 2 horas
Aplicación: StatFlow

Objetivos:

  • Calcular e interpretar estadísticos descriptivos
  • Comparar medias y proporciones cuantificando el tamaño del efecto
  • Estimar correlaciones con intervalos de confianza

Contenidos:

  • Estadísticos de tendencia central y dispersión
  • Visualización de distribuciones: histogramas, densidades, boxplots, violines
  • Comparación de medias:
    • Diferencia cruda (tamaño del efecto no estandarizado)
    • Tamaño del efecto estandarizado (d de Cohen)
    • Intervalos de confianza para la diferencia
  • Comparación de proporciones:
    • Diferencia de proporciones, riesgo relativo, odds ratio
    • Tamaño del efecto (h de Cohen)
    • Intervalos de confianza
  • Correlación: estimación de r con intervalos de confianza
  • Visualización de matrices de correlación
  • Detección de multicolinealidad

Pregunta guía: ¿Qué tan diferente? ¿Qué tan grande? ¿Con cuánta incertidumbre?


8 Sesión 2 — Modelos lineales y generalizados (LM, GLM)

Duración: hasta 2 horas
Aplicación: StatModels

Objetivos:

  • Ajustar e interpretar modelos de regresión lineal simple y múltiple
  • Comprender la estructura de un GLM y cuándo usarlo
  • Interpretar coeficientes con tamaños de efecto e intervalos de confianza

Contenidos:

  • Regresión lineal simple y múltiple
    • Interpretación de coeficientes como estimaciones de efecto
    • Coeficientes estandarizados para comparación entre predictores
    • Intervalos de confianza
    • Evaluación del ajuste: R², R² ajustado
    • Diagnóstico de supuestos
    • Comparación de modelos con AIC
  • Modelos lineales generalizados (GLM)
    • Estructura: familia, función de enlace, predictor lineal
    • GLM binomial (logístico): presencia/ausencia
      • Interpretación en escala logit y probabilidad
      • Odds ratios e intervalos de confianza
    • GLM Poisson: conteos
      • Sobredispersión: detección y solución
    • Evaluación del ajuste: devianza, AIC
    • Visualización de efectos marginales

9 Sesión 3 — Modelos aditivos y mixtos (GAM, LMM)

Duración: hasta 2 horas
Aplicación: StatModels

Objetivos:

  • Comprender cuándo y por qué usar GAM en lugar de GLM
  • Ajustar GAM con términos suavizados e interpretar relaciones no lineales
  • Comprender la estructura de modelos con efectos mixtos para datos jerárquicos

Contenidos:

  • Modelos aditivos generalizados (GAM)
    • Limitaciones del GLM: relaciones no lineales
    • Términos suavizados: tipos de suavizadores
    • Selección automática de suavizadores
    • Interpretación de grados de libertad efectivos (edf)
    • Evaluación del ajuste: devianza explicada, R² ajustado
    • Visualización de efectos suavizados
    • Comparación GAM vs. GLM
  • Modelos mixtos (LMM / GLMM)
    • Efectos fijos vs. efectos aleatorios
    • Estructura de datos jerárquicos y agrupados
    • Interpretación de varianza entre grupos
    • Cuándo usar modelos mixtos

10 Sesión 4 — Machine learning: Random Forest, XGBoost y comparación de enfoques

Duración: hasta 2 horas
Aplicación: StatML

Objetivos:

  • Comprender la lógica del aprendizaje automático supervisado
  • Ajustar y evaluar modelos de Random Forest y XGBoost
  • Interpretar la importancia de variables
  • Contrastar el enfoque estadístico con el de machine learning

Contenidos:

  • Aprendizaje automático supervisado vs. análisis estadístico: diferencias y usos
  • Árboles de decisión: fundamentos conceptuales
  • Random Forest
    • Ensamblaje de árboles y reducción de varianza
    • Tuning de hiperparámetros
    • Métricas de evaluación: AUC-ROC, accuracy, RMSE
    • Importancia de variables
  • XGBoost y otros algoritmos
    • Boosting: lógica y diferencias con bagging
    • Comparación de algoritmos
  • Regresión regularizada (lasso/ridge): cuándo usarla
  • ¿Cuándo usar modelos estadísticos y cuándo machine learning?
    • Inferencia vs. predicción
    • Interpretabilidad vs. rendimiento predictivo

Proyecto integrador: Cada participante explora un conjunto de datos de su elección con las tres aplicaciones, aplica al menos dos enfoques de modelado, y presenta sus hallazgos con énfasis en estimación e intervalos de confianza.


11 Requisitos

  • Computadora personal con conexión a internet
  • Acceso a las aplicaciones StatFlow, StatModels y StatML (se proporcionan los enlaces antes del curso)
  • No se requiere experiencia previa con R ni con programación

12 Referencias

Burnham, K.P. & Anderson, D.R. (2002). Model Selection and Multimodel Inference (2nd ed.). Springer.

Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer. https://hastie.su.domains/ElemStatLearn/

Kuhn, M. & Wickham, H. (2020). Tidymodels: a collection of packages for modeling and machine learning using tidyverse principles. https://www.tidymodels.org

Wood, S.N. (2017). Generalized Additive Models: An Introduction with R (2nd ed.). CRC Press.

Wickham, H., Çetinkaya-Rundel, M. & Grolemund, G. (2023). R for Data Science (2nd ed.). O’Reilly. https://r4ds.hadley.nz