Ciencia de Datos: Análisis de Datos con Aplicaciones Interactivas
Programa del curso — 4 sesiones × 2 horas
1 Información general
| Modalidad | Virtual (sincrónica) |
| Fechas | 23 y 25 de junio 30 de junio - 2 de julio |
| Horario | 17.00 - 19.00 |
| Duración | 4 sesiones × 2 horas (máximo) |
| Plataforma | Zoom |
| Instructor | Manuel Spínola (mspinola@una.cr) |
| Contacto | Yoselyn Díaz (asistentecontableicomvis@una.ac.cr) |
| Inversión | $102,00 |
2 Descripción general
Este curso cubre los fundamentos del análisis de datos utilizando tres aplicaciones interactivas desarrolladas específicamente para el aprendizaje: StatFlow, StatModels y StatML. A través de 4 sesiones, los participantes explorarán, modelarán e interpretarán datos sin necesidad de escribir código, concentrándose en los conceptos estadísticos y el análisis de resultados.
El curso abarca desde la estadística descriptiva y la comparación de grupos, hasta modelos estadísticos (lineales, generalizados, aditivos y mixtos) y algoritmos de machine learning (Random Forest, XGBoost). A lo largo de todas las sesiones se adopta un enfoque basado en estimación — tamaños de efecto e intervalos de confianza — en lugar del enfoque tradicional centrado en valores p.
3 Objetivos del curso
Al finalizar el curso, los participantes serán capaces de:
- Describir y visualizar distribuciones de datos
- Comparar medias y proporciones interpretando el tamaño del efecto estandarizado y no estandarizado
- Estimar correlaciones e interpretar su magnitud e incertidumbre
- Ajustar e interpretar modelos lineales generales y generalizados
- Aplicar modelos aditivos generalizados (GAM) para relaciones no lineales
- Ajustar modelos con efectos mixtos para datos jerárquicos
- Construir y evaluar modelos de machine learning
- Contrastar cuándo usar modelos estadísticos versus algoritmos de ML
4 Enfoque estadístico
Este curso adopta un enfoque basado en estimación en lugar de la dicotomía significativo/no significativo. El énfasis está en:
- Tamaños de efecto — ¿qué tan grande es el efecto, estandarizado y en unidades originales?
- Intervalos de confianza — ¿cuál es la incertidumbre de la estimación?
- Relevancia práctica — ¿el efecto es biológicamente o prácticamente importante?
Este enfoque es consistente a lo largo de las cuatro sesiones, desde la comparación de grupos hasta los modelos más complejos.
5 Aplicaciones utilizadas
| Aplicación | Descripción |
|---|---|
| StatFlow | Estadística descriptiva, comparación de medias y proporciones, correlación |
| StatModels | Modelos lineales (LM), generalizados (GLM), aditivos (GAM) y mixtos |
| StatML | Machine learning: Random Forest, XGBoost y otros algoritmos |
Las aplicaciones permiten cargar datos, ajustar parámetros y visualizar resultados en tiempo real, sin necesidad de escribir código.
6 Estructura del curso
| Sesión | App | Tema |
|---|---|---|
| 1 | StatFlow | Estadística descriptiva, comparación de grupos y correlación |
| 2 | StatModels | Modelos lineales y generalizados (LM, GLM) |
| 3 | StatModels | Modelos aditivos y mixtos (GAM, LMM) |
| 4 | StatML | Machine learning: RF, XGBoost y comparación de enfoques |
7 Sesión 1 — Estadística descriptiva, comparación de grupos y correlación
Duración: hasta 2 horas
Aplicación: StatFlow
Objetivos:
- Calcular e interpretar estadísticos descriptivos
- Comparar medias y proporciones cuantificando el tamaño del efecto
- Estimar correlaciones con intervalos de confianza
Contenidos:
- Estadísticos de tendencia central y dispersión
- Visualización de distribuciones: histogramas, densidades, boxplots, violines
- Comparación de medias:
- Diferencia cruda (tamaño del efecto no estandarizado)
- Tamaño del efecto estandarizado (d de Cohen)
- Intervalos de confianza para la diferencia
- Comparación de proporciones:
- Diferencia de proporciones, riesgo relativo, odds ratio
- Tamaño del efecto (h de Cohen)
- Intervalos de confianza
- Correlación: estimación de r con intervalos de confianza
- Visualización de matrices de correlación
- Detección de multicolinealidad
Pregunta guía: ¿Qué tan diferente? ¿Qué tan grande? ¿Con cuánta incertidumbre?
8 Sesión 2 — Modelos lineales y generalizados (LM, GLM)
Duración: hasta 2 horas
Aplicación: StatModels
Objetivos:
- Ajustar e interpretar modelos de regresión lineal simple y múltiple
- Comprender la estructura de un GLM y cuándo usarlo
- Interpretar coeficientes con tamaños de efecto e intervalos de confianza
Contenidos:
- Regresión lineal simple y múltiple
- Interpretación de coeficientes como estimaciones de efecto
- Coeficientes estandarizados para comparación entre predictores
- Intervalos de confianza
- Evaluación del ajuste: R², R² ajustado
- Diagnóstico de supuestos
- Comparación de modelos con AIC
- Modelos lineales generalizados (GLM)
- Estructura: familia, función de enlace, predictor lineal
- GLM binomial (logístico): presencia/ausencia
- Interpretación en escala logit y probabilidad
- Odds ratios e intervalos de confianza
- GLM Poisson: conteos
- Sobredispersión: detección y solución
- Evaluación del ajuste: devianza, AIC
- Visualización de efectos marginales
9 Sesión 3 — Modelos aditivos y mixtos (GAM, LMM)
Duración: hasta 2 horas
Aplicación: StatModels
Objetivos:
- Comprender cuándo y por qué usar GAM en lugar de GLM
- Ajustar GAM con términos suavizados e interpretar relaciones no lineales
- Comprender la estructura de modelos con efectos mixtos para datos jerárquicos
Contenidos:
- Modelos aditivos generalizados (GAM)
- Limitaciones del GLM: relaciones no lineales
- Términos suavizados: tipos de suavizadores
- Selección automática de suavizadores
- Interpretación de grados de libertad efectivos (edf)
- Evaluación del ajuste: devianza explicada, R² ajustado
- Visualización de efectos suavizados
- Comparación GAM vs. GLM
- Modelos mixtos (LMM / GLMM)
- Efectos fijos vs. efectos aleatorios
- Estructura de datos jerárquicos y agrupados
- Interpretación de varianza entre grupos
- Cuándo usar modelos mixtos
10 Sesión 4 — Machine learning: Random Forest, XGBoost y comparación de enfoques
Duración: hasta 2 horas
Aplicación: StatML
Objetivos:
- Comprender la lógica del aprendizaje automático supervisado
- Ajustar y evaluar modelos de Random Forest y XGBoost
- Interpretar la importancia de variables
- Contrastar el enfoque estadístico con el de machine learning
Contenidos:
- Aprendizaje automático supervisado vs. análisis estadístico: diferencias y usos
- Árboles de decisión: fundamentos conceptuales
- Random Forest
- Ensamblaje de árboles y reducción de varianza
- Tuning de hiperparámetros
- Métricas de evaluación: AUC-ROC, accuracy, RMSE
- Importancia de variables
- XGBoost y otros algoritmos
- Boosting: lógica y diferencias con bagging
- Comparación de algoritmos
- Regresión regularizada (lasso/ridge): cuándo usarla
- ¿Cuándo usar modelos estadísticos y cuándo machine learning?
- Inferencia vs. predicción
- Interpretabilidad vs. rendimiento predictivo
Proyecto integrador: Cada participante explora un conjunto de datos de su elección con las tres aplicaciones, aplica al menos dos enfoques de modelado, y presenta sus hallazgos con énfasis en estimación e intervalos de confianza.
11 Requisitos
- Computadora personal con conexión a internet
- Acceso a las aplicaciones StatFlow, StatModels y StatML (se proporcionan los enlaces antes del curso)
- No se requiere experiencia previa con R ni con programación
12 Referencias
Burnham, K.P. & Anderson, D.R. (2002). Model Selection and Multimodel Inference (2nd ed.). Springer.
Hastie, T., Tibshirani, R. & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). Springer. https://hastie.su.domains/ElemStatLearn/
Kuhn, M. & Wickham, H. (2020). Tidymodels: a collection of packages for modeling and machine learning using tidyverse principles. https://www.tidymodels.org
Wood, S.N. (2017). Generalized Additive Models: An Introduction with R (2nd ed.). CRC Press.
Wickham, H., Çetinkaya-Rundel, M. & Grolemund, G. (2023). R for Data Science (2nd ed.). O’Reilly. https://r4ds.hadley.nz