Aprender por qué se necesitan funciones de activación
Comparar ReLU, Sigmoid, Tanh y otras
Entender el problema del gradiente desvaneciente
Elegir la activación correcta para tu problema
Explora 12 funciones de activación
🎯 Instrucciones:
Comparación interactiva de funciones de activación (ReLU, Leaky ReLU, GELU, Sigmoid, Tanh, Swish). Muestra curvas de transferencia, derivadas, flujo de gradiente y adecuación por capa.
Activaciones son válvulas que controlan el flujo de señal. ReLU es un interruptor on/off, sigmoid es un dimmer (pero se atasca), GELU es una válvula suave optimizada para transformers.
Elige activación según rol de la capa. Monitorea magnitud de derivadas para evitar gradientes que desaparecen/explotan. Default moderno: ReLU/LeakyReLU en ocultas, GELU en transformers, sigmoid/softmax para salidas.
Regiones donde la derivada ≈ 0 (colas sigmoid/tanh). Causa gradientes que desaparecen y aprendizaje lento.
ReLU produce 0 para x<0. Bias negativo grande puede matar neuronas permanentemente. Leaky ReLU lo soluciona permitiendo pendiente pequeña.
Activaciones diferenciables (tanh, GELU) proveen gradientes más suaves, mejorando estabilidad de optimización.
BERT, GPT y ViT usan GELU para mejorar velocidad y precisión frente a ReLU.
ReLU6 limita valores a 6 para cuantización entera en dispositivos edge.
Baja el bias por debajo de -3 y observa neuronas planas. Cambia a Leaky ReLU para revivirlas.
Entrena la misma red con ReLU, tanh, GELU. Compara epochs para alcanzar 95% accuracy.
❌ Usar sigmoid en todas partes
¿Por Qué? Causa aprendizaje lento por saturación. Usa sigmoid solo para salidas binarias.
❌ Ignorar pares activación-batchnorm
¿Por Qué? BatchNorm funciona mejor antes/después de ReLU. Algunas activaciones (Swish) ya se auto-normalizan.