APPZYFY
Módulo 3advanced
🖼️

Estudio de Segmentación de Imágenes

60 min
1

Entender clasificación a nivel de pixel

2

Comparar segmentación semántica, de instancia, panóptica

3

Aprender fundamentos de U-Net y Mask R-CNN

4

Aplicar segmentación a imágenes reales

Estudio de Segmentación de Imágenes

Domina segmentación semántica, de instancia y panóptica

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Implementa segmentación semántica, instancia y panóptica. Demuestra arquitecturas encoder-decoder (U-Net, DeepLab), convoluciones atrous, skip connections. Clasificación pixel a pixel con manejo de desbalance de clases.

¿Cómo Funciona?

  1. 1Semántica: predecir clase para cada píxel → salida (H, W, num_clases)
  2. 2Instancia: distinguir objetos individuales de misma clase (persona_1, persona_2)
  3. 3Panóptica: semántica (stuff) + instancia (things) unificada
  4. 4U-Net: encoder (downsampling) → cuello de botella → decoder (upsampling) con skip connections
  5. 5Convolución atrous: filtros dilatados agrandan campo receptivo sin reducir resolución
  6. 6Loss: cross-entropy + Dice loss para desbalance de clases, ponderado por frecuencia inversa

Analogía Simple

Segmentación es predicción densa: cada píxel obtiene etiqueta. Skip connections de U-Net preservan detalle espacial perdido durante downsampling. Convoluciones atrous = campo receptivo más ancho sin perder resolución.

Concepto Clave

Semántica: clasificación a nivel píxel. Instancia: segmentación a nivel objeto. Panóptica: ambas unificadas. Imagenología médica usa U-Net (alta precisión), conducción autónoma usa PSPNet/DeepLab (tiempo real).

Conceptos Fundamentales

Semántica vs Instancia vs Panóptica

Semántica: todas personas = mismo color. Instancia: persona_1 ≠ persona_2 (colores distintos). Panóptica: stuff (semántica) + things (instancia).

Skip Connections de U-Net

Concatenar features de encoder con features de decoder. Preserva info espacial de alta resolución perdida durante downsampling.

Dice Loss

Dice = 2×|pred∩gt| / (|pred|+|gt|). Robusto a desbalance de clases. Usado en segmentación médica (tumores pequeños vs fondo grande).

Aplicaciones del Mundo Real

🏥
Imagenología Médica

Segmentar tumores, órganos, vasos sanguíneos en escaneos MRI/CT. U-Net logra 95%+ puntaje Dice en segmentación de órganos.

🚗
Conducción Autónoma

Segmentar carretera, marcas de carril, peatones, vehículos. Segmentación panóptica en tiempo real (30 FPS) para entendimiento de escena.

🛰️
Imagenología Satelital

Segmentar uso de tierra: bosques, agua, áreas urbanas. Monitorear deforestación, expansión urbana desde datos satelitales.

Pruébalo Tú Mismo

Comparación de Tipo de Segmentación

Misma imagen: semántica (todas personas mismo color), instancia (cada persona color distinto), panóptica (cielo semántico, personas instancia).

Demo de Desbalance de Clases

Tumor pequeño (1% píxeles), fondo grande (99%). Cross-entropy falla, Dice loss tiene éxito.

Errores Comunes a Evitar

Sin skip connections

¿Por Qué? Decoder no puede recuperar detalles espaciales. Siempre usar skip connections (estilo U-Net).

Ignorar desbalance de clases

¿Por Qué? Modelo predice clase mayoritaria (fondo). Usa Dice loss o pesos de clase.

Original
Original
With MaskSegmentation Mask
Semántica

Leyenda de Clases

Background

ID: 0

Road

ID: 1

Car

ID: 2

Tree

ID: 3

Semántica

Clasifica cada píxel en clases (cielo, camino, auto). Misma clase = mismo color, aunque sean múltiples objetos.

Instancia

Separa instancias individuales de objetos. Dos autos = colores diferentes, aunque sean misma clase.

Panóptica

Combina semántica (stuff: cielo, camino) + instancia (things: autos, personas). Lo mejor de ambos.

Arquitectura U-Net

Encoder-decoder con skip connections. Encoder extrae características, decoder escala a resolución original.

Métrica IoU

Intersection over Union por clase. IoU > 0.5 = aceptable, IoU > 0.7 = buena segmentación.

Imágenes Médicas

Segmentar tumores, órganos, tejidos. Crítico para planificación de cirugía y diagnóstico.