Ciencia de Datos: Análisis de Datos con Aplicaciones Interactivas

Programa del curso — 4 sesiones × 2 horas

Autor/a

Manuel Spínola

Fecha de publicación

25 de junio de 2026

1 Información general

Modalidad	Virtual (sincrónica)
Fechas	21 y 23 de julio 28 y 30 de julio
Horario	17.00 - 19.00
Duración	4 sesiones × 2 horas (máximo)
Plataforma	Zoom
Instructor	Manuel Spínola (mspinola@una.cr)
Contacto	Yoselyn Díaz (asistentecontableicomvis@una.ac.cr)
Inversión	$102,00

2 Descripción general

Este curso cubre los fundamentos del análisis de datos utilizando tres aplicaciones interactivas desarrolladas específicamente para el aprendizaje: StatFlow, StatModels y StatML. A través de 4 sesiones, los participantes explorarán, modelarán e interpretarán datos sin necesidad de escribir código, concentrándose en los conceptos estadísticos y el análisis de resultados.

El curso abarca desde la estadística descriptiva y la comparación de grupos, hasta modelos estadísticos (lineales, generalizados, aditivos y mixtos) y algoritmos de machine learning (Random Forest, XGBoost). A lo largo de todas las sesiones se adopta un enfoque basado en estimación — tamaños de efecto e intervalos de confianza — en lugar del enfoque tradicional centrado en valores p.

3 Objetivos del curso

Al finalizar el curso, los participantes serán capaces de:

Describir y visualizar distribuciones de datos
Comparar medias y proporciones interpretando el tamaño del efecto estandarizado y no estandarizado
Estimar correlaciones e interpretar su magnitud e incertidumbre
Ajustar e interpretar modelos lineales generales y generalizados
Aplicar modelos aditivos generalizados (GAM) para relaciones no lineales
Ajustar modelos con efectos mixtos para datos jerárquicos
Construir y evaluar modelos de machine learning
Contrastar cuándo usar modelos estadísticos versus algoritmos de ML

4 Enfoque estadístico

Este curso adopta un enfoque basado en estimación en lugar de la dicotomía significativo/no significativo. El énfasis está en:

Tamaños de efecto — ¿qué tan grande es el efecto, estandarizado y en unidades originales?
Intervalos de confianza — ¿cuál es la incertidumbre de la estimación?
Relevancia práctica — ¿el efecto es biológicamente o prácticamente importante?

Este enfoque es consistente a lo largo de las cuatro sesiones, desde la comparación de grupos hasta los modelos más complejos.

5 Aplicaciones utilizadas

Aplicación	Descripción
StatFlow	Estadística descriptiva, comparación de medias y proporciones, correlación
StatModels	Modelos lineales (LM), generalizados (GLM), aditivos (GAM) y mixtos
StatML	Machine learning: Random Forest, XGBoost y otros algoritmos

Las aplicaciones permiten cargar datos, ajustar parámetros y visualizar resultados en tiempo real, sin necesidad de escribir código.

6 Estructura del curso

Sesión	App	Tema
1	StatFlow	Estadística descriptiva, comparación de grupos y correlación
2	StatModels	Modelos lineales y generalizados (LM, GLM)
3	StatModels	Modelos aditivos y mixtos (GAM, LMM)
4	StatML	Machine learning: RF, XGBoost y comparación de enfoques

7 Sesión 1 — Estadística descriptiva, comparación de grupos y correlación

Duración: hasta 2 horas
Aplicación: StatFlow

Objetivos:

Calcular e interpretar estadísticos descriptivos
Comparar medias y proporciones cuantificando el tamaño del efecto
Estimar correlaciones con intervalos de confianza

Contenidos:

Estadísticos de tendencia central y dispersión
Visualización de distribuciones: histogramas, densidades, boxplots, violines
Comparación de medias:
- Diferencia cruda (tamaño del efecto no estandarizado)
- Tamaño del efecto estandarizado (d de Cohen)
- Intervalos de confianza para la diferencia
Comparación de proporciones:
- Diferencia de proporciones, riesgo relativo, odds ratio
- Tamaño del efecto (h de Cohen)
- Intervalos de confianza
Correlación: estimación de r con intervalos de confianza
Visualización de matrices de correlación
Detección de multicolinealidad

Pregunta guía: ¿Qué tan diferente? ¿Qué tan grande? ¿Con cuánta incertidumbre?

8 Sesión 2 — Modelos lineales y generalizados (LM, GLM)

Duración: hasta 2 horas
Aplicación: StatModels

Objetivos:

Ajustar e interpretar modelos de regresión lineal simple y múltiple
Comprender la estructura de un GLM y cuándo usarlo
Interpretar coeficientes con tamaños de efecto e intervalos de confianza

Contenidos:

Regresión lineal simple y múltiple
- Interpretación de coeficientes como estimaciones de efecto
- Coeficientes estandarizados para comparación entre predictores
- Intervalos de confianza
- Evaluación del ajuste: R², R² ajustado
- Diagnóstico de supuestos
- Comparación de modelos con AIC
Modelos lineales generalizados (GLM)
- Estructura: familia, función de enlace, predictor lineal
- GLM binomial (logístico): presencia/ausencia
  - Interpretación en escala logit y probabilidad
  - Odds ratios e intervalos de confianza
- GLM Poisson: conteos
  - Sobredispersión: detección y solución
- Evaluación del ajuste: devianza, AIC
- Visualización de efectos marginales

9 Sesión 3 — Modelos aditivos y mixtos (GAM, LMM)

Duración: hasta 2 horas
Aplicación: StatModels

Objetivos:

Comprender cuándo y por qué usar GAM en lugar de GLM
Ajustar GAM con términos suavizados e interpretar relaciones no lineales
Comprender la estructura de modelos con efectos mixtos para datos jerárquicos

Contenidos:

Modelos aditivos generalizados (GAM)
- Limitaciones del GLM: relaciones no lineales
- Términos suavizados: tipos de suavizadores
- Selección automática de suavizadores
- Interpretación de grados de libertad efectivos (edf)
- Evaluación del ajuste: devianza explicada, R² ajustado
- Visualización de efectos suavizados
- Comparación GAM vs. GLM
Modelos mixtos (LMM / GLMM)
- Efectos fijos vs. efectos aleatorios
- Estructura de datos jerárquicos y agrupados
- Interpretación de varianza entre grupos
- Cuándo usar modelos mixtos

10 Sesión 4 — Machine learning: Random Forest, XGBoost y comparación de enfoques

Duración: hasta 2 horas
Aplicación: StatML

Objetivos:

Comprender la lógica del aprendizaje automático supervisado
Ajustar y evaluar modelos de Random Forest y XGBoost
Interpretar la importancia de variables
Contrastar el enfoque estadístico con el de machine learning

Contenidos:

Aprendizaje automático supervisado vs. análisis estadístico: diferencias y usos
Árboles de decisión: fundamentos conceptuales
Random Forest
- Ensamblaje de árboles y reducción de varianza
- Tuning de hiperparámetros
- Métricas de evaluación: AUC-ROC, accuracy, RMSE
- Importancia de variables
XGBoost y otros algoritmos
- Boosting: lógica y diferencias con bagging
- Comparación de algoritmos
Regresión regularizada (lasso/ridge): cuándo usarla
¿Cuándo usar modelos estadísticos y cuándo machine learning?
- Inferencia vs. predicción
- Interpretabilidad vs. rendimiento predictivo

Proyecto integrador: Cada participante explora un conjunto de datos de su elección con las tres aplicaciones, aplica al menos dos enfoques de modelado, y presenta sus hallazgos con énfasis en estimación e intervalos de confianza.

11 Requisitos

Computadora personal con conexión a internet
Acceso a las aplicaciones StatFlow, StatModels y StatML (se proporcionan los enlaces antes del curso)
No se requiere experiencia previa con R ni con programación

12 Referencias

Burnham, K.P. & Anderson, D.R. (2002). Model Selection and Multimodel Inference (2nd ed.). Springer.

Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer. https://hastie.su.domains/ElemStatLearn/

Kuhn, M. & Wickham, H. (2020). Tidymodels: a collection of packages for modeling and machine learning using tidyverse principles. https://www.tidymodels.org

Wood, S.N. (2017). Generalized Additive Models: An Introduction with R (2nd ed.). CRC Press.

Wickham, H., Çetinkaya-Rundel, M. & Grolemund, G. (2023). R for Data Science (2nd ed.). O’Reilly. https://r4ds.hadley.nz