APPZYFY
Módulo 3advanced
👁️

Visualizador de Mecanismo de Atención

60 min
1

Entender cómo los transformers "se enfocan"

2

Aprender matrices Query, Key, Value

3

Visualizar atención multi-cabeza

4

Reconocer atención en arquitectura ChatGPT/GPT

Visualizador de Mecanismo de Atención

Entiende cómo Transformers atienden a palabras relevantes

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Visualiza self-attention y multi-head attention en Transformers. Muestra matrices Q/K/V, cómputo de pesos de atención, scaled dot-product attention. Fundamento de BERT, GPT, Vision Transformers.

¿Cómo Funciona?

  1. 1Entrada: X ∈ ℝ^(n×d) (n tokens, d dimensiones)
  2. 2Proyecciones lineales: Q = XW_Q, K = XW_K, V = XW_V
  3. 3Puntajes de atención: A = softmax(QK^T / √d_k) ∈ ℝ^(n×n)
  4. 4Valores ponderados: Z = AV ∈ ℝ^(n×d)
  5. 5Multi-head: cabezas de atención paralelas, concatenar salidas
  6. 6Add & Norm: conexión residual + normalización de capa

Analogía Simple

Atención = recuperación ponderada. Cada token consulta (Q) todos los tokens, computa relevancia (K), recupera información (V). Softmax asegura que pesos sumen 1. Multi-head = múltiples perspectivas simultáneamente.

Concepto Clave

Atención habilita contexto global: cada token atiende a todos los tokens (complejidad O(n²)). Transformers = atención + codificación de posición + feed-forward. Scaled dot-product previene desvanecimiento de gradiente (escalado √d_k).

Conceptos Fundamentales

Query, Key, Value (Q/K/V)

Q = qué estoy buscando. K = qué tengo para ofrecer. V = qué realmente contengo. Atención = emparejar Q con K, recuperar V.

Dot-Product Escalado

Escalar por √d_k para prevenir dot products grandes (que causan gradientes pequeños después de softmax). Crítico para entrenamiento estable.

Multi-Head Attention

8-16 cabezas de atención paralelas. Cada cabeza aprende patrones distintos: sintaxis, semántica, correferencia. Concatenar + proyectar salidas.

Aplicaciones del Mundo Real

🤖
ChatGPT / GPT-4

Transformers con self-attention. Cada token atiende a todos los tokens previos. Genera texto coherente mediante patrones de atención.

🔤
BERT / Clasificación de Texto

Atención bidireccional: cada token atiende a todos los tokens (izquierda + derecha). Pre-entrenado en corpora masivos, fine-tuned para tareas.

🖼️
Vision Transformers (ViT)

Divide imagen en parches, trata como tokens. Self-attention aprende relaciones espaciales. Competitivo con CNNs en ImageNet.

Pruébalo Tú Mismo

Mapa de Calor de Atención

Visualiza A[i,j] como mapa de calor. Brillante = atención fuerte. Ve qué tokens atienden a cuáles (conexiones sujeto ← → verbo).

Diversidad Multi-Head

Compara 8 cabezas de atención. Cabeza 1 = sintaxis. Cabeza 2 = semántica. Cabeza 3 = posicional. Cabezas aprenden patrones complementarios.

Errores Comunes a Evitar

Olvidar escalado √d_k

¿Por Qué? Dot products grandes → gradientes pequeños después de softmax. Siempre escalar por √d_k.

Usar atención sin codificación posicional

¿Por Qué? Atención es invariante a permutación (sin info de orden). Agregar codificación posicional (embeddings sin/cos).

Haz clic en un token para ver atención

Mapa de Calor de Atención

Head 1

10%

The

17%

cat

41%

sat

17%

on

6%

the

9%

mat

Head 2

9%

The

27%

cat

27%

sat

27%

on

5%

the

4%

mat

Head 3

22%

The

18%

cat

29%

sat

18%

on

4%

the

9%

mat

Head 4

6%

The

18%

cat

28%

sat

18%

on

10%

the

21%

mat

Consulta (Q)

-0.2
-0.4
0.9
-0.2
-1.0
-0.3
-0.2
0.6
-0.7
0.8
-1.0
-0.1
-0.9
-0.7
1.0
0.7

Clave (K)

-0.9
-0.6
-0.9
-0.1
0.2
-0.2
0.1
-0.8
0.9
0.3
-0.1
0.5
1.0
-0.5
-0.9
0.7

Valor (V)

-0.5
0.8
0.2
0.1
-0.7
-0.8
-0.1
0.3
-0.3
-0.8
-1.0
0.5
0.0
0.4
0.9
-0.4

Attention Formula

Attention(Q, K, V) = softmax(QKT / √dk) V

Q = matriz Query, K = matriz Key, V = matriz Value, d_k = dimensión de keys

Atención Multi-Cabeza

Múltiples cabezas de atención aprenden diferentes relaciones: sintaxis, semántica, co-referencia. Combinadas para representación rica.

Auto-Atención

Cada palabra atiende a todas las palabras en oración (incluyéndose a sí misma). Captura contexto y dependencias.

Producto Punto Escalado

Attention(Q,K,V) = softmax(QK^T / √d_k) V. Escala por √d_k para prevenir saturación en softmax.

Arquitectura Transformer

BERT, GPT usan atención multi-cabeza. Sin recurrencia, procesa secuencia completa en paralelo. Revolucionó NLP.