APPZYFY

Herramienta Anterior

Módulo 4advanced

🌊

Simulador de Modelo de Difusión

90 min

Entender difusión hacia adelante y reversa

Aprender proceso DDPM (Difusión con Eliminación de Ruido)

Explorar arquitectura U-Net de eliminación de ruido

Reconocer tecnología detrás de Stable Diffusion/Midjourney

Arena de Batalla GAN

Volver a la Ruta

Volver a Ruta de Aprendizaje IA

Simulador de Modelo de Difusión

Simula procesos de difusión forward y reverse paso a paso

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Implementa modelos probabilísticos de difusión denoising (DDPM). Demuestra difusión forward (adición de ruido) y difusión reverse (denoising). Muestra denoiser U-Net, scheduling de ruido, condicionamiento de texto mediante cross-attention.

¿Cómo Funciona?

1Proceso forward: q(x_t|x_{t-1}) = N(x_t; √(1-β_t)x_{t-1}, β_t I) para t=1..T
2Schedule de ruido: β_1..β_T creciendo linealmente o cosinalmente. T=1000 típico
3Proceso reverse: p_θ(x_{t-1}|x_t) = N(x_{t-1}; μ_θ(x_t,t), Σ_θ(x_t,t))
4Entrenamiento: ε_θ predice ruido, loss = ||ε - ε_θ(x_t, t)||²
5Sampling: comenzar desde x_T ~ N(0,I), denoise iterativamente x_T → x_0
6Guidance: classifier-free guidance escala puntajes condicionales vs incondicionales

Analogía Simple

Difusión = adición progresiva de ruido (forward) y denoising aprendido (reverse). Analogía: desenfocar foto gradualmente, aprender a enfocar paso a paso. U-Net predice ruido en cada timestep.

Concepto Clave

Modelos de difusión superan GANs en calidad de síntesis de imágenes. Entrenamiento estable (sin dinámicas adversariales). Sampling lento (1000 pasos) pero mejorado mediante DDIM, DPM-Solver (10-50 pasos). Stable Diffusion = text-to-image mediante condicionamiento CLIP.

Conceptos Fundamentales

Difusión Forward

Adición progresiva de ruido sobre T pasos. x_0 (limpio) → x_T (ruido puro). Cadena Markov fija.

Difusión Reverse (Denoising)

Proceso aprendido: x_T (ruido) → x_0 (limpio). U-Net predice ruido ε_θ(x_t, t) en cada paso. Denoising iterativo.

Guidance Sin Clasificador

Mezcla predicciones condicionales e incondicionales. Mayor escala de guidance = condicionamiento más fuerte. Habilita control text-to-image.

Aplicaciones del Mundo Real

🎨

Text-to-Image (Stable Diffusion)

Generar imágenes desde prompts de texto. DALL-E 2, Midjourney, Stable Diffusion usan modelos de difusión con condicionamiento de texto CLIP.

🎵

Síntesis de Audio

DiffWave, WaveGrad generan formas de onda de audio de alta calidad. Text-to-speech, generación de música mediante difusión.

🧬

Diseño Molecular

Modelos de difusión generan moléculas novedosas con propiedades deseadas. Descubrimiento de drogas, ciencia de materiales.

Pruébalo Tú Mismo

Comparación de Schedule de Ruido

Schedule lineal: adición uniforme de ruido. Schedule coseno: ruido más lento al inicio, más rápido al final. Coseno = mejor calidad.

Efecto de Escala de Guidance

Escala 1.0: condicionamiento débil (genérico). Escala 7.5: condicionamiento fuerte (coincide con prompt). Escala 15: artefactos sobre-saturados.

Errores Comunes a Evitar

❌ Usar muy pocos pasos de sampling

¿Por Qué? Calidad se degrada. Usa al menos 50 pasos (DDIM) o 1000 (DDPM). Samplers rápidos: DPM-Solver (20 pasos).

❌ Escala de guidance extrema

¿Por Qué? Escala >10: sobre-saturado, artefactos. Escala <5: genérico, ignora prompt. Punto dulce: 7-8.

Fase: Difusión Forward

Agregando ruido a imagen...

Paso de Tiempo: 0 / 1000

Cronograma de Ruido

Escala de Guía (CFG): 7.5

1 (No guidance)7.5 (Balanced)15 (Strong)

Prompt de Texto

Algoritmo DDPM

Modelos Probabilísticos de Difusión con Denoise (DDPM): Proceso forward agrega ruido Gaussiano en T=1000 pasos. Proceso reverse entrenado para predecir y remover ruido en cada paso. q(x_t | x_{t-1}) agrega ruido, p_θ(x_{t-1} | x_t) remueve ruido.

Denoiser U-Net

Arquitectura U-Net con conexiones skip. Encoder downsample (4→8→16→32), bottleneck procesa, decoder upsample (32→16→8→4). Toma imagen ruidosa + embedding timestep, output ruido predicho. Entrenado con pérdida MSE.

Condicionamiento de Texto

CLIP codifica prompt de texto a embedding. Cross-attention en U-Net condiciona en texto. Classifier-Free Guidance (CFG): interpola entre predicciones condicionales e incondicionales. Scale > 1 fortalece adherencia a prompt.

Stable Diffusion

Trabaja en espacio latente (64x64) en lugar de espacio pixel (512x512). Encoder VAE comprime imagen, difusión en latente, decoder VAE reconstruye. 8x más rápido, 4GB VRAM vs 24GB. SDXL, DALL-E 3 usan difusión latente.

Arena de Batalla GAN

Volver a la Ruta

Volver a Ruta de Aprendizaje IA

Herramienta Anterior

⚔️ Arena de Batalla GAN

Decisiones

Finanzas

Hogar

Productividad

Relajación

Más

Simulador de Modelo de Difusión

Simulador de Modelo de Difusión

Guía de Aprendizaje

Elige tu estilo de aprendizaje

¿Qué Hace?

¿Cómo Funciona?

Analogía Simple

Concepto Clave

Conceptos Fundamentales

Difusión Forward

Difusión Reverse (Denoising)

Guidance Sin Clasificador

Aplicaciones del Mundo Real

Text-to-Image (Stable Diffusion)

Síntesis de Audio

Diseño Molecular

Pruébalo Tú Mismo

Comparación de Schedule de Ruido

Efecto de Escala de Guidance

Errores Comunes a Evitar

Algoritmo DDPM

Denoiser U-Net

Condicionamiento de Texto

Stable Diffusion