APPZYFY
Módulo 3intermediate
🎨

Visualizador de Filtros CNN

60 min
1

Visualizar mapas de características CNN

2

Entender aprendizaje jerárquico de características

3

Aprender operaciones de pooling

4

Ver cómo las CNNs construyen comprensión de imágenes

APPZYFY

Visualizador de Filtros CNN

Explora cómo las redes convolucionales aprenden

Imagen de Entrada

Pooling

Imagen de Entrada

Escala de Grises

Mapas de Características (Capa 1)

16 Filtros
Detección de Bordes
Todos los bordes
Bordes Verticales
Líneas verticales
Bordes Horizontales
Líneas horizontales
Nitidez
Detalles finos
Desenfoque
Suavizado
Afilado
Contraste
Diagonal Derecha
Diagonales derechas
Diagonal Izquierda
Diagonales izquierdas
Sobel X
Gradientes X
Sobel Y
Gradientes Y
Patrón Plus
Formas de cruz
Patrón X
Formas de X
Borde Superior
Límites superiores
Esquina
Esquinas
Horizontal Simple
Cambios horizontales
Vertical Simple
Cambios verticales

Filtro 1: Detección de Bordes

Kernel 3x3:
-1
-1
-1
-1
8
-1
-1
-1
-1
Detecta:
Todos los bordes

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Visualiza kernels convolucionales y mapas de features a través de capas CNN. Demuestra extracción jerárquica de features: capas tempranas detectan bordes/texturas, capas profundas detectan patrones semánticos. Muestra efectos de pooling, stride, padding en dimensiones espaciales.

¿Cómo Funciona?

  1. 1Convolucionar entrada con kernel aprendible K: (I * K)[i,j] = ΣΣ I[i+m, j+n] K[m,n]
  2. 2Aplicar activación ReLU: max(0, salida_conv)
  3. 3Pooling reduce dims espaciales: max-pool selecciona máx en ventana, avg-pool computa media
  4. 4Stride controla tamaño de paso (stride=2 → reducción tamaño 50%)
  5. 5Padding (same/valid) preserva/reduce dimensiones de salida
  6. 6Apilar capas: Conv → ReLU → Pool → Conv → ReLU → Pool → FC

Analogía Simple

Cada filtro es un detector de patrones. Kernel detector de bordes [[-1,0,1]] responde fuerte a bordes verticales. Apilar capas construye jerarquía composicional: bordes → texturas → partes → objetos.

Concepto Clave

CNNs aprenden jerarquías espaciales mediante weight sharing (mismo filtro en imagen) y conectividad local (campos receptivos). Eficiente en parámetros vs fully-connected: conv 3x3 con 64 filtros = 64×9 = 576 params, FC = 224×224×64 = 3.2M params.

Conceptos Fundamentales

Stride & Padding

Stride=1: escaneo denso. Stride=2: downsampling 50%. Padding="same": tamaño salida = tamaño entrada. Padding="valid": sin padding, tamaño reduce.

Max Pooling vs Avg Pooling

Max: mantiene activación más fuerte (invariancia de traslación). Avg: más suave, menos agresivo. Max pooling dominante en CNNs modernas.

Campo Receptivo

Región de entrada que influencia una neurona de salida. Crece con profundidad: conv 3×3 apilada 3 veces → campo receptivo 7×7.

Aplicaciones del Mundo Real

📸
Clasificación de Imágenes

ImageNet (AlexNet 2012): 1000 categorías, 60M params, 15% error. CNNs modernas: 3% error (superhumano).

🏥
Imagenología Médica

Detectar tumores en rayos X/MRIs. CNNs igualan accuracy de radiólogo, asisten diagnóstico.

🚗
Conducción Autónoma

Detección de carriles, reconocimiento de peatones, clasificación de señales de tráfico. CNNs en tiempo real procesan 30 FPS.

Pruébalo Tú Mismo

Visualización de Filtros

Aplica filtro Sobel (detección bordes): horizontal [-1,0,1], vertical [-1;0;1]. Ve bordes iluminarse.

Efecto de Pooling

Max-pool con ventana 2×2, stride=2. Imagen se encoge 2x, features más fuertes preservadas.

Errores Comunes a Evitar

Pooling demasiado agresivo

¿Por Qué? Pierde información espacial. Usa convoluciones con stride en vez de pooling para arquitecturas modernas.

Olvidar padding

¿Por Qué? Salida se encoge rápido, pierde información de borde. Usa padding="same" para preservar dims espaciales.