Entender difusión hacia adelante y reversa
Aprender proceso DDPM (Difusión con Eliminación de Ruido)
Explorar arquitectura U-Net de eliminación de ruido
Reconocer tecnología detrás de Stable Diffusion/Midjourney
Simula procesos de difusión forward y reverse paso a paso
Implementa modelos probabilísticos de difusión denoising (DDPM). Demuestra difusión forward (adición de ruido) y difusión reverse (denoising). Muestra denoiser U-Net, scheduling de ruido, condicionamiento de texto mediante cross-attention.
Difusión = adición progresiva de ruido (forward) y denoising aprendido (reverse). Analogía: desenfocar foto gradualmente, aprender a enfocar paso a paso. U-Net predice ruido en cada timestep.
Modelos de difusión superan GANs en calidad de síntesis de imágenes. Entrenamiento estable (sin dinámicas adversariales). Sampling lento (1000 pasos) pero mejorado mediante DDIM, DPM-Solver (10-50 pasos). Stable Diffusion = text-to-image mediante condicionamiento CLIP.
Adición progresiva de ruido sobre T pasos. x_0 (limpio) → x_T (ruido puro). Cadena Markov fija.
Proceso aprendido: x_T (ruido) → x_0 (limpio). U-Net predice ruido ε_θ(x_t, t) en cada paso. Denoising iterativo.
Mezcla predicciones condicionales e incondicionales. Mayor escala de guidance = condicionamiento más fuerte. Habilita control text-to-image.
Generar imágenes desde prompts de texto. DALL-E 2, Midjourney, Stable Diffusion usan modelos de difusión con condicionamiento de texto CLIP.
DiffWave, WaveGrad generan formas de onda de audio de alta calidad. Text-to-speech, generación de música mediante difusión.
Modelos de difusión generan moléculas novedosas con propiedades deseadas. Descubrimiento de drogas, ciencia de materiales.
Schedule lineal: adición uniforme de ruido. Schedule coseno: ruido más lento al inicio, más rápido al final. Coseno = mejor calidad.
Escala 1.0: condicionamiento débil (genérico). Escala 7.5: condicionamiento fuerte (coincide con prompt). Escala 15: artefactos sobre-saturados.
❌ Usar muy pocos pasos de sampling
¿Por Qué? Calidad se degrada. Usa al menos 50 pasos (DDIM) o 1000 (DDPM). Samplers rápidos: DPM-Solver (20 pasos).
❌ Escala de guidance extrema
¿Por Qué? Escala >10: sobre-saturado, artefactos. Escala <5: genérico, ignora prompt. Punto dulce: 7-8.
Fase: Difusión Forward
Agregando ruido a imagen...
Modelos Probabilísticos de Difusión con Denoise (DDPM): Proceso forward agrega ruido Gaussiano en T=1000 pasos. Proceso reverse entrenado para predecir y remover ruido en cada paso. q(x_t | x_{t-1}) agrega ruido, p_θ(x_{t-1} | x_t) remueve ruido.
Arquitectura U-Net con conexiones skip. Encoder downsample (4→8→16→32), bottleneck procesa, decoder upsample (32→16→8→4). Toma imagen ruidosa + embedding timestep, output ruido predicho. Entrenado con pérdida MSE.
CLIP codifica prompt de texto a embedding. Cross-attention en U-Net condiciona en texto. Classifier-Free Guidance (CFG): interpola entre predicciones condicionales e incondicionales. Scale > 1 fortalece adherencia a prompt.
Trabaja en espacio latente (64x64) en lugar de espacio pixel (512x512). Encoder VAE comprime imagen, difusión en latente, decoder VAE reconstruye. 8x más rápido, 4GB VRAM vs 24GB. SDXL, DALL-E 3 usan difusión latente.