APPZYFY
Módulo 2intermediate
🌳

Constructor de Árboles de Decisión

45 min
1

Construir árboles de decisión interpretables

2

Entender impureza de Gini y entropía

3

Comparar árboles vs redes neuronales

4

Aprender cuándo importa la interpretabilidad

APPZYFY

Constructor de Árboles de Decisión

Construye y visualiza árboles de decisión interactivamente

Conjunto de Datos

Parameters

Visualización del Árbol

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Construye árboles de clasificación/regresión mediante división binaria recursiva. Selecciona divisiones maximizando ganancia de información (impureza Gini o reducción de entropía). Maneja features categóricos/numéricos, estrategias de poda, trade-offs interpretabilidad vs accuracy.

¿Cómo Funciona?

  1. 1Comenzar con dataset completo en nodo raíz
  2. 2Para cada feature, evaluar todos los puntos de división posibles
  3. 3Elegir división maximizando ganancia de información: IG = H(padre) - Σ(w_i * H(hijo_i))
  4. 4Gini: G = 1 - Σp_i², Entropía: H = -Σp_i log₂(p_i)
  5. 5Dividir recursivamente hijos hasta criterios de parada: max profundidad, min muestras, min ganancia
  6. 6Podar árbol mediante poda de complejidad de costo (parámetro α)

Analogía Simple

Árbol de decisión es juego de 20 preguntas: cada nodo pregunta binariamente dividiendo datos en grupos homogéneos. Gini/Entropía miden "pureza" – meta son nodos hoja puros (una clase).

Concepto Clave

Árboles son interpretables pero propensos a sobreajuste. Controla mediante max_depth, min_samples_split. Métodos ensemble (Random Forest, XGBoost) sacrifican interpretabilidad por accuracy.

Conceptos Fundamentales

Gini vs Entropía

Gini: cómputo más rápido, entropía: mejor fundamento teórico. Resultados prácticamente similares. Gini default en scikit-learn.

Poda

Pre-poda: detener crecimiento temprano (max_depth, min_samples). Post-poda: crecer árbol completo, luego cortar ramas mediante complejidad de costo.

Importancia de Features

Suma de ganancia de información ponderada por muestras en cada división de nodo. Identifica features más predictivos.

Aplicaciones del Mundo Real

🏦
Puntuación Crediticia

Bancos usan árboles de decisión para aprobación de préstamos: ingreso > $X? → puntaje crédito > Y? → aprobar/rechazar. Interpretable para reguladores.

🩺
Diagnóstico Médico

Diagnosticar enfermedad mediante árbol de síntomas: fiebre? → tos? → viaje reciente? → diagnóstico malaria/gripe/COVID.

📧
Detección de Spam

Filtro de correo: contiene "urgente"? → muchas exclamaciones? → link sospechoso? → spam/no spam.

Pruébalo Tú Mismo

Demo de Sobreajuste

Max depth 1 = subajuste (línea recta). Max depth 10 = sobreajuste (ondulada). Max depth 3-5 = justo.

División Gini vs Entropía

Mismos datos, cambiar criterio. Ver si puntos de división difieren (usualmente muy similar).

Errores Comunes a Evitar

Sin poda (demasiado profundo)

¿Por Qué? Memoriza datos de entrenamiento, falla en datos nuevos. Siempre configura max_depth o min_samples_split.

Ignorar desbalance de clases

¿Por Qué? Clase mayoritaria domina divisiones. Usa class_weight o resampling.