APPZYFY
Módulo 2intermediate
🧠

Laboratorio de Redes Neuronales

60 min
1

Construir redes neuronales con múltiples capas

2

Entender backpropagation visualmente

3

Experimentar con hiperparámetros

4

Entrenar redes con datasets reales

Simulador de Redes Neuronales

Construye y entrena redes neuronales visualmente

Cómo Usar Esta Herramienta

¿Qué son las Redes Neuronales?

Las redes neuronales son modelos computacionales inspirados en el cerebro humano. Consisten en nodos interconectados (neuronas) organizados en capas que aprenden a reconocer patrones en los datos.

¿Cómo Funcionan?

Los datos fluyen a través de capas de neuronas. Cada conexión tiene un peso que se ajusta durante el entrenamiento. La red aprende comparando sus predicciones con los resultados reales y actualizando los pesos para minimizar errores.

Componentes Clave

Capa de Entrada: Recibe datos • Capas Ocultas: Procesan información • Capa de Salida: Produce predicciones • Pesos: Fuerzas de conexión entre neuronas • Funciones de Activación: Determinan la salida de la neurona

📚 Sigue estos pasos para entrenar tu primera red neuronal:

1. Elige un Conjunto de Datos

Selecciona un dataset predefinido (XOR, Círculo, Espiral, Gaussiana) o dibuja tus propios puntos haciendo clic en el lienzo.

2. Diseña la Red

Agrega o quita capas ocultas. Ajusta el número de neuronas por capa. Elige funciones de activación para cada capa.

3. Configura Parámetros de Entrenamiento

Tasa de Aprendizaje: Comienza con 0.01-0.05 • Épocas: Prueba 100-200 inicialmente • Monitorea la curva de pérdida para ver si el entrenamiento funciona.

4. Entrena y Observa

Haz clic en "Entrenar" y observa cómo la pérdida disminuye. La precisión debería aumentar. Si no, intenta ajustar capas, tasa de aprendizaje o épocas.

Consejos Pro

💡 Comienza simple: 1-2 capas ocultas con 4-8 neuronas • 💡 Observa la pérdida: Debe disminuir consistentemente • 💡 Experimenta: Prueba diferentes arquitecturas • 💡 Más capas ≠ siempre mejor

Tasa de Aprendizaje

Controla cuánto ajusta la red los pesos durante el entrenamiento. Muy alta = aprendizaje inestable, muy baja = convergencia lenta. Recomendado: 0.01-0.05

Épocas

Una época = un pase completo por los datos de entrenamiento. Más épocas permiten mejor aprendizaje pero toman más tiempo. Observa la curva de pérdida para saber cuándo parar.

Pérdida

Mide el error de predicción. Menor pérdida = mejor precisión. El objetivo del entrenamiento es minimizar la pérdida. Si la pérdida aumenta, reduce la tasa de aprendizaje.

Precisión

Porcentaje de predicciones correctas. 100% = clasificación perfecta. Alta precisión con baja pérdida indica entrenamiento exitoso.

Funciones de Activación Explicadas

Elige la función de activación correcta para cada capa para optimizar el aprendizaje:

σ

Función Sigmoid

Salidas entre 0 y 1. Curva suave en forma de S. Buena para: Clasificación binaria, probabilidades de salida. Fórmula: σ(x) = 1/(1+e⁻ˣ). Limitación: Desvanecimiento de gradientes en redes profundas.

0→1

ReLU (Unidad Lineal Rectificada)

Salida 0 para entradas negativas, x para positivas. Activación más popular. Buena para: Capas ocultas, entrenamiento rápido, evitar desvanecimiento de gradientes. Fórmula: f(x) = max(0, x). Ventaja: Computacionalmente eficiente.

0→∞
~

Tanh (Tangente Hiperbólica)

Salidas entre -1 y 1. Centrada en cero (mejor que sigmoid). Buena para: Capas ocultas, normalización de datos. Fórmula: tanh(x) = (eˣ - e⁻ˣ)/(eˣ + e⁻ˣ). Nota: Aún sufre desvanecimiento de gradientes.

-1→1
📊 Quick Comparison:
Sigmoid
✓ Output layer
✓ Probabilities
✗ Deep networks
ReLU
✓ Hidden layers
✓ Fast training
✓ Most popular
Tanh
✓ Hidden layers
✓ Zero-centered
✗ Slow gradients

Dibujar Puntos

Conjunto de Datos

Arquitectura de Red

Capa de Entrada (2 neurons)
Capa Oculta 1
Capa Oculta 2
Capa de Salida (1 neuron)

Entrenamiento

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Sandbox interactivo para prototipar perceptrones multicapa (MLPs). Configura arquitectura, activación, tasa de aprendizaje y dataset para observar trade-offs bias/variance, dinámica de convergencia y fronteras de decisión en tiempo real.

¿Cómo Funciona?

  1. 1Selecciona dataset (spiral, moons, blobs, linear) con distinta separabilidad
  2. 2Diseña red: capas, neuronas, activación (ReLU, tanh, sigmoid)
  3. 3Configura hiperparámetros del optimizador: learning rate, epochs, batch size
  4. 4Forward pass computa z = Wx + b, activación a = σ(z) capa por capa
  5. 5Backpropaga gradientes vía regla de la cadena, actualiza pesos con gradiente descendente
  6. 6Monitorea curva de pérdida, accuracy y evolución de frontera de decisión por epoch

Analogía Simple

Piensa en una orquesta: cada capa es una sección (cuerdas, metales) transformando la melodía (features). El director (optimizador) ajusta el tempo (learning rate) para minimizar la disonancia (loss). Muy pocas secciones subajustan, demasiadas sobreajustan.

Concepto Clave

La profundidad/ancho controla capacidad; la activación controla no linealidad; learning rate y epochs controlan convergencia. Retroalimentación visual acelera intuición para búsqueda de arquitectura e hiperparámetros.

Conceptos Fundamentales

Funciones de Activación

Introducen no linealidad para que la red modele patrones complejos. ReLU evita gradientes que desaparecen, sigmoid entrega probabilidades, tanh centra activaciones.

Learning Rate

Tamaño de paso para gradiente descendente. Muy alto diverge, muy bajo se estanca. El visualizador muestra sobrepasos vs convergencia suave.

Overfitting vs Underfitting

Redes pequeñas subajustan (alto bias). Redes enormes sobreajustan (alta varianza). Monitorea loss de entrenamiento vs validación para mantener balance.

Batch Size y Epochs

Batch size controla ruido en gradiente; epochs controlan duración. Mini-batch SGD ofrece convergencia rápida con buena generalización.

Aplicaciones del Mundo Real

🖼️
Clasificación de Imágenes

Los MLPs son la base de los sistemas de visión tempranos y aún alimentan las capas finales en CNNs y transformers modernos.

🔊
Reconocimiento de Voz

Capas totalmente conectadas mapean características acústicas a probabilidades de fonemas, habilitando asistentes como Siri y Alexa.

💳
Detección de Fraude

Los bancos usan MLPs para detectar patrones de transacción anómalos en tiempo real, reduciendo pérdidas por millones.

Pruébalo Tú Mismo

Demo de Gradientes que Desaparecen

Apila 6 capas sigmoides y observa el estancamiento. Cambia a ReLU – la convergencia vuelve. Visualiza el problema clásico de gradientes que desaparecen.

Barrido de Learning Rate

Configura LR=1.0 (diverge), 0.1 (rápido pero oscila), 0.01 (estable). Entiende por qué los schedules importan.

Errores Comunes a Evitar

Demasiada poca capacidad

¿Por Qué? Una capa oculta con pocas neuronas no separa patrones complejos como espirales. Aumenta ancho/profundidad gradualmente.

Ignorar normalización

¿Por Qué? Entradas sin escalar ralentizan convergencia y agravan saturación. Normaliza features a [-1,1] o usa batch normalization.