Entender clasificación a nivel de pixel
Comparar segmentación semántica, de instancia, panóptica
Aprender fundamentos de U-Net y Mask R-CNN
Aplicar segmentación a imágenes reales
Domina segmentación semántica, de instancia y panóptica
Implementa segmentación semántica, instancia y panóptica. Demuestra arquitecturas encoder-decoder (U-Net, DeepLab), convoluciones atrous, skip connections. Clasificación pixel a pixel con manejo de desbalance de clases.
Segmentación es predicción densa: cada píxel obtiene etiqueta. Skip connections de U-Net preservan detalle espacial perdido durante downsampling. Convoluciones atrous = campo receptivo más ancho sin perder resolución.
Semántica: clasificación a nivel píxel. Instancia: segmentación a nivel objeto. Panóptica: ambas unificadas. Imagenología médica usa U-Net (alta precisión), conducción autónoma usa PSPNet/DeepLab (tiempo real).
Semántica: todas personas = mismo color. Instancia: persona_1 ≠ persona_2 (colores distintos). Panóptica: stuff (semántica) + things (instancia).
Concatenar features de encoder con features de decoder. Preserva info espacial de alta resolución perdida durante downsampling.
Dice = 2×|pred∩gt| / (|pred|+|gt|). Robusto a desbalance de clases. Usado en segmentación médica (tumores pequeños vs fondo grande).
Segmentar tumores, órganos, vasos sanguíneos en escaneos MRI/CT. U-Net logra 95%+ puntaje Dice en segmentación de órganos.
Segmentar carretera, marcas de carril, peatones, vehículos. Segmentación panóptica en tiempo real (30 FPS) para entendimiento de escena.
Segmentar uso de tierra: bosques, agua, áreas urbanas. Monitorear deforestación, expansión urbana desde datos satelitales.
Misma imagen: semántica (todas personas mismo color), instancia (cada persona color distinto), panóptica (cielo semántico, personas instancia).
Tumor pequeño (1% píxeles), fondo grande (99%). Cross-entropy falla, Dice loss tiene éxito.
❌ Sin skip connections
¿Por Qué? Decoder no puede recuperar detalles espaciales. Siempre usar skip connections (estilo U-Net).
❌ Ignorar desbalance de clases
¿Por Qué? Modelo predice clase mayoritaria (fondo). Usa Dice loss o pesos de clase.
Background
ID: 0
Road
ID: 1
Car
ID: 2
Tree
ID: 3
Clasifica cada píxel en clases (cielo, camino, auto). Misma clase = mismo color, aunque sean múltiples objetos.
Separa instancias individuales de objetos. Dos autos = colores diferentes, aunque sean misma clase.
Combina semántica (stuff: cielo, camino) + instancia (things: autos, personas). Lo mejor de ambos.
Encoder-decoder con skip connections. Encoder extrae características, decoder escala a resolución original.
Intersection over Union por clase. IoU > 0.5 = aceptable, IoU > 0.7 = buena segmentación.
Segmentar tumores, órganos, tejidos. Crítico para planificación de cirugía y diagnóstico.