Simulador de Modelo de Difusión
Entender difusión hacia adelante y reversa
Aprender proceso DDPM (Difusión con Eliminación de Ruido)
Explorar arquitectura U-Net de eliminación de ruido
Reconocer tecnología detrás de Stable Diffusion/Midjourney
Simulador de Modelo de Difusión
Simula procesos de difusión forward y reverse paso a paso
Guía de Aprendizaje
Elige tu estilo de aprendizaje
¿Qué Hace?
Implementa modelos probabilísticos de difusión denoising (DDPM). Demuestra difusión forward (adición de ruido) y difusión reverse (denoising). Muestra denoiser U-Net, scheduling de ruido, condicionamiento de texto mediante cross-attention.
¿Cómo Funciona?
- 1Proceso forward: q(x_t|x_{t-1}) = N(x_t; √(1-β_t)x_{t-1}, β_t I) para t=1..T
- 2Schedule de ruido: β_1..β_T creciendo linealmente o cosinalmente. T=1000 típico
- 3Proceso reverse: p_θ(x_{t-1}|x_t) = N(x_{t-1}; μ_θ(x_t,t), Σ_θ(x_t,t))
- 4Entrenamiento: ε_θ predice ruido, loss = ||ε - ε_θ(x_t, t)||²
- 5Sampling: comenzar desde x_T ~ N(0,I), denoise iterativamente x_T → x_0
- 6Guidance: classifier-free guidance escala puntajes condicionales vs incondicionales
Analogía Simple
Difusión = adición progresiva de ruido (forward) y denoising aprendido (reverse). Analogía: desenfocar foto gradualmente, aprender a enfocar paso a paso. U-Net predice ruido en cada timestep.
Concepto Clave
Modelos de difusión superan GANs en calidad de síntesis de imágenes. Entrenamiento estable (sin dinámicas adversariales). Sampling lento (1000 pasos) pero mejorado mediante DDIM, DPM-Solver (10-50 pasos). Stable Diffusion = text-to-image mediante condicionamiento CLIP.
Conceptos Fundamentales
Difusión Forward
Adición progresiva de ruido sobre T pasos. x_0 (limpio) → x_T (ruido puro). Cadena Markov fija.
Difusión Reverse (Denoising)
Proceso aprendido: x_T (ruido) → x_0 (limpio). U-Net predice ruido ε_θ(x_t, t) en cada paso. Denoising iterativo.
Guidance Sin Clasificador
Mezcla predicciones condicionales e incondicionales. Mayor escala de guidance = condicionamiento más fuerte. Habilita control text-to-image.
Aplicaciones del Mundo Real
Text-to-Image (Stable Diffusion)
Generar imágenes desde prompts de texto. DALL-E 2, Midjourney, Stable Diffusion usan modelos de difusión con condicionamiento de texto CLIP.
Síntesis de Audio
DiffWave, WaveGrad generan formas de onda de audio de alta calidad. Text-to-speech, generación de música mediante difusión.
Diseño Molecular
Modelos de difusión generan moléculas novedosas con propiedades deseadas. Descubrimiento de drogas, ciencia de materiales.
Pruébalo Tú Mismo
Comparación de Schedule de Ruido
Schedule lineal: adición uniforme de ruido. Schedule coseno: ruido más lento al inicio, más rápido al final. Coseno = mejor calidad.
Efecto de Escala de Guidance
Escala 1.0: condicionamiento débil (genérico). Escala 7.5: condicionamiento fuerte (coincide con prompt). Escala 15: artefactos sobre-saturados.
Errores Comunes a Evitar
❌ Usar muy pocos pasos de sampling
¿Por Qué? Calidad se degrada. Usa al menos 50 pasos (DDIM) o 1000 (DDPM). Samplers rápidos: DPM-Solver (20 pasos).
❌ Escala de guidance extrema
¿Por Qué? Escala >10: sobre-saturado, artefactos. Escala <5: genérico, ignora prompt. Punto dulce: 7-8.
Fase: Difusión Forward
Agregando ruido a imagen...
Algoritmo DDPM
Modelos Probabilísticos de Difusión con Denoise (DDPM): Proceso forward agrega ruido Gaussiano en T=1000 pasos. Proceso reverse entrenado para predecir y remover ruido en cada paso. q(x_t | x_{t-1}) agrega ruido, p_θ(x_{t-1} | x_t) remueve ruido.
Denoiser U-Net
Arquitectura U-Net con conexiones skip. Encoder downsample (4→8→16→32), bottleneck procesa, decoder upsample (32→16→8→4). Toma imagen ruidosa + embedding timestep, output ruido predicho. Entrenado con pérdida MSE.
Condicionamiento de Texto
CLIP codifica prompt de texto a embedding. Cross-attention en U-Net condiciona en texto. Classifier-Free Guidance (CFG): interpola entre predicciones condicionales e incondicionales. Scale > 1 fortalece adherencia a prompt.
Stable Diffusion
Trabaja en espacio latente (64x64) en lugar de espacio pixel (512x512). Encoder VAE comprime imagen, difusión en latente, decoder VAE reconstruye. 8x más rápido, 4GB VRAM vs 24GB. SDXL, DALL-E 3 usan difusión latente.