Construir redes neuronales con múltiples capas
Entender backpropagation visualmente
Experimentar con hiperparámetros
Entrenar redes con datasets reales
Construye y entrena redes neuronales visualmente
Las redes neuronales son modelos computacionales inspirados en el cerebro humano. Consisten en nodos interconectados (neuronas) organizados en capas que aprenden a reconocer patrones en los datos.
Los datos fluyen a través de capas de neuronas. Cada conexión tiene un peso que se ajusta durante el entrenamiento. La red aprende comparando sus predicciones con los resultados reales y actualizando los pesos para minimizar errores.
Capa de Entrada: Recibe datos • Capas Ocultas: Procesan información • Capa de Salida: Produce predicciones • Pesos: Fuerzas de conexión entre neuronas • Funciones de Activación: Determinan la salida de la neurona
1. Elige un Conjunto de Datos
Selecciona un dataset predefinido (XOR, Círculo, Espiral, Gaussiana) o dibuja tus propios puntos haciendo clic en el lienzo.
2. Diseña la Red
Agrega o quita capas ocultas. Ajusta el número de neuronas por capa. Elige funciones de activación para cada capa.
3. Configura Parámetros de Entrenamiento
Tasa de Aprendizaje: Comienza con 0.01-0.05 • Épocas: Prueba 100-200 inicialmente • Monitorea la curva de pérdida para ver si el entrenamiento funciona.
4. Entrena y Observa
Haz clic en "Entrenar" y observa cómo la pérdida disminuye. La precisión debería aumentar. Si no, intenta ajustar capas, tasa de aprendizaje o épocas.
💡 Comienza simple: 1-2 capas ocultas con 4-8 neuronas • 💡 Observa la pérdida: Debe disminuir consistentemente • 💡 Experimenta: Prueba diferentes arquitecturas • 💡 Más capas ≠ siempre mejor
Controla cuánto ajusta la red los pesos durante el entrenamiento. Muy alta = aprendizaje inestable, muy baja = convergencia lenta. Recomendado: 0.01-0.05
Una época = un pase completo por los datos de entrenamiento. Más épocas permiten mejor aprendizaje pero toman más tiempo. Observa la curva de pérdida para saber cuándo parar.
Mide el error de predicción. Menor pérdida = mejor precisión. El objetivo del entrenamiento es minimizar la pérdida. Si la pérdida aumenta, reduce la tasa de aprendizaje.
Porcentaje de predicciones correctas. 100% = clasificación perfecta. Alta precisión con baja pérdida indica entrenamiento exitoso.
Elige la función de activación correcta para cada capa para optimizar el aprendizaje:
Salidas entre 0 y 1. Curva suave en forma de S. Buena para: Clasificación binaria, probabilidades de salida. Fórmula: σ(x) = 1/(1+e⁻ˣ). Limitación: Desvanecimiento de gradientes en redes profundas.
Salida 0 para entradas negativas, x para positivas. Activación más popular. Buena para: Capas ocultas, entrenamiento rápido, evitar desvanecimiento de gradientes. Fórmula: f(x) = max(0, x). Ventaja: Computacionalmente eficiente.
Salidas entre -1 y 1. Centrada en cero (mejor que sigmoid). Buena para: Capas ocultas, normalización de datos. Fórmula: tanh(x) = (eˣ - e⁻ˣ)/(eˣ + e⁻ˣ). Nota: Aún sufre desvanecimiento de gradientes.
Sandbox interactivo para prototipar perceptrones multicapa (MLPs). Configura arquitectura, activación, tasa de aprendizaje y dataset para observar trade-offs bias/variance, dinámica de convergencia y fronteras de decisión en tiempo real.
Piensa en una orquesta: cada capa es una sección (cuerdas, metales) transformando la melodía (features). El director (optimizador) ajusta el tempo (learning rate) para minimizar la disonancia (loss). Muy pocas secciones subajustan, demasiadas sobreajustan.
La profundidad/ancho controla capacidad; la activación controla no linealidad; learning rate y epochs controlan convergencia. Retroalimentación visual acelera intuición para búsqueda de arquitectura e hiperparámetros.
Introducen no linealidad para que la red modele patrones complejos. ReLU evita gradientes que desaparecen, sigmoid entrega probabilidades, tanh centra activaciones.
Tamaño de paso para gradiente descendente. Muy alto diverge, muy bajo se estanca. El visualizador muestra sobrepasos vs convergencia suave.
Redes pequeñas subajustan (alto bias). Redes enormes sobreajustan (alta varianza). Monitorea loss de entrenamiento vs validación para mantener balance.
Batch size controla ruido en gradiente; epochs controlan duración. Mini-batch SGD ofrece convergencia rápida con buena generalización.
Los MLPs son la base de los sistemas de visión tempranos y aún alimentan las capas finales en CNNs y transformers modernos.
Capas totalmente conectadas mapean características acústicas a probabilidades de fonemas, habilitando asistentes como Siri y Alexa.
Los bancos usan MLPs para detectar patrones de transacción anómalos en tiempo real, reduciendo pérdidas por millones.
Apila 6 capas sigmoides y observa el estancamiento. Cambia a ReLU – la convergencia vuelve. Visualiza el problema clásico de gradientes que desaparecen.
Configura LR=1.0 (diverge), 0.1 (rápido pero oscila), 0.01 (estable). Entiende por qué los schedules importan.
❌ Demasiada poca capacidad
¿Por Qué? Una capa oculta con pocas neuronas no separa patrones complejos como espirales. Aumenta ancho/profundidad gradualmente.
❌ Ignorar normalización
¿Por Qué? Entradas sin escalar ralentizan convergencia y agravan saturación. Normaliza features a [-1,1] o usa batch normalization.