Visualizador de Mecanismo de Atención
Entender cómo los transformers "se enfocan"
Aprender matrices Query, Key, Value
Visualizar atención multi-cabeza
Reconocer atención en arquitectura ChatGPT/GPT
Visualizador de Mecanismo de Atención
Entiende cómo Transformers atienden a palabras relevantes
Guía de Aprendizaje
Elige tu estilo de aprendizaje
¿Qué Hace?
Visualiza self-attention y multi-head attention en Transformers. Muestra matrices Q/K/V, cómputo de pesos de atención, scaled dot-product attention. Fundamento de BERT, GPT, Vision Transformers.
¿Cómo Funciona?
- 1Entrada: X ∈ ℝ^(n×d) (n tokens, d dimensiones)
- 2Proyecciones lineales: Q = XW_Q, K = XW_K, V = XW_V
- 3Puntajes de atención: A = softmax(QK^T / √d_k) ∈ ℝ^(n×n)
- 4Valores ponderados: Z = AV ∈ ℝ^(n×d)
- 5Multi-head: cabezas de atención paralelas, concatenar salidas
- 6Add & Norm: conexión residual + normalización de capa
Analogía Simple
Atención = recuperación ponderada. Cada token consulta (Q) todos los tokens, computa relevancia (K), recupera información (V). Softmax asegura que pesos sumen 1. Multi-head = múltiples perspectivas simultáneamente.
Concepto Clave
Atención habilita contexto global: cada token atiende a todos los tokens (complejidad O(n²)). Transformers = atención + codificación de posición + feed-forward. Scaled dot-product previene desvanecimiento de gradiente (escalado √d_k).
Conceptos Fundamentales
Query, Key, Value (Q/K/V)
Q = qué estoy buscando. K = qué tengo para ofrecer. V = qué realmente contengo. Atención = emparejar Q con K, recuperar V.
Dot-Product Escalado
Escalar por √d_k para prevenir dot products grandes (que causan gradientes pequeños después de softmax). Crítico para entrenamiento estable.
Multi-Head Attention
8-16 cabezas de atención paralelas. Cada cabeza aprende patrones distintos: sintaxis, semántica, correferencia. Concatenar + proyectar salidas.
Aplicaciones del Mundo Real
ChatGPT / GPT-4
Transformers con self-attention. Cada token atiende a todos los tokens previos. Genera texto coherente mediante patrones de atención.
BERT / Clasificación de Texto
Atención bidireccional: cada token atiende a todos los tokens (izquierda + derecha). Pre-entrenado en corpora masivos, fine-tuned para tareas.
Vision Transformers (ViT)
Divide imagen en parches, trata como tokens. Self-attention aprende relaciones espaciales. Competitivo con CNNs en ImageNet.
Pruébalo Tú Mismo
Mapa de Calor de Atención
Visualiza A[i,j] como mapa de calor. Brillante = atención fuerte. Ve qué tokens atienden a cuáles (conexiones sujeto ← → verbo).
Diversidad Multi-Head
Compara 8 cabezas de atención. Cabeza 1 = sintaxis. Cabeza 2 = semántica. Cabeza 3 = posicional. Cabezas aprenden patrones complementarios.
Errores Comunes a Evitar
❌ Olvidar escalado √d_k
¿Por Qué? Dot products grandes → gradientes pequeños después de softmax. Siempre escalar por √d_k.
❌ Usar atención sin codificación posicional
¿Por Qué? Atención es invariante a permutación (sin info de orden). Agregar codificación posicional (embeddings sin/cos).
Haz clic en un token para ver atención
Mapa de Calor de Atención
Head 1
The
cat
sat
on
the
mat
Head 2
The
cat
sat
on
the
mat
Head 3
The
cat
sat
on
the
mat
Head 4
The
cat
sat
on
the
mat
Consulta (Q)
Clave (K)
Valor (V)
Attention Formula
Attention(Q, K, V) = softmax(QKT / √dk) V
Q = matriz Query, K = matriz Key, V = matriz Value, d_k = dimensión de keys
Atención Multi-Cabeza
Múltiples cabezas de atención aprenden diferentes relaciones: sintaxis, semántica, co-referencia. Combinadas para representación rica.
Auto-Atención
Cada palabra atiende a todas las palabras en oración (incluyéndose a sí misma). Captura contexto y dependencias.
Producto Punto Escalado
Attention(Q,K,V) = softmax(QK^T / √d_k) V. Escala por √d_k para prevenir saturación en softmax.
Arquitectura Transformer
BERT, GPT usan atención multi-cabeza. Sin recurrencia, procesa secuencia completa en paralelo. Revolucionó NLP.