APPZYFY

Herramienta Anterior Siguiente Herramienta

Módulo 3advanced

👁️

Visualizador de Mecanismo de Atención

60 min

Entender cómo los transformers "se enfocan"

Aprender matrices Query, Key, Value

Visualizar atención multi-cabeza

Reconocer atención en arquitectura ChatGPT/GPT

Embeddings de Palabras

Volver a la Ruta

Tokenización

Visualizador de Mecanismo de Atención

Entiende cómo Transformers atienden a palabras relevantes

Guía de Aprendizaje

Intermedio⏱️ 30 min

Elige tu estilo de aprendizaje

¿Qué Hace?

Visualiza self-attention y multi-head attention en Transformers. Muestra matrices Q/K/V, cómputo de pesos de atención, scaled dot-product attention. Fundamento de BERT, GPT, Vision Transformers.

¿Cómo Funciona?

1Entrada: X ∈ ℝ^(n×d) (n tokens, d dimensiones)
2Proyecciones lineales: Q = XW_Q, K = XW_K, V = XW_V
3Puntajes de atención: A = softmax(QK^T / √d_k) ∈ ℝ^(n×n)
4Valores ponderados: Z = AV ∈ ℝ^(n×d)
5Multi-head: cabezas de atención paralelas, concatenar salidas
6Add & Norm: conexión residual + normalización de capa

Analogía Simple

Atención = recuperación ponderada. Cada token consulta (Q) todos los tokens, computa relevancia (K), recupera información (V). Softmax asegura que pesos sumen 1. Multi-head = múltiples perspectivas simultáneamente.

Concepto Clave

Atención habilita contexto global: cada token atiende a todos los tokens (complejidad O(n²)). Transformers = atención + codificación de posición + feed-forward. Scaled dot-product previene desvanecimiento de gradiente (escalado √d_k).

Conceptos Fundamentales

Query, Key, Value (Q/K/V)

Q = qué estoy buscando. K = qué tengo para ofrecer. V = qué realmente contengo. Atención = emparejar Q con K, recuperar V.

Dot-Product Escalado

Escalar por √d_k para prevenir dot products grandes (que causan gradientes pequeños después de softmax). Crítico para entrenamiento estable.

Multi-Head Attention

8-16 cabezas de atención paralelas. Cada cabeza aprende patrones distintos: sintaxis, semántica, correferencia. Concatenar + proyectar salidas.

Aplicaciones del Mundo Real

🤖

ChatGPT / GPT-4

Transformers con self-attention. Cada token atiende a todos los tokens previos. Genera texto coherente mediante patrones de atención.

🔤

BERT / Clasificación de Texto

Atención bidireccional: cada token atiende a todos los tokens (izquierda + derecha). Pre-entrenado en corpora masivos, fine-tuned para tareas.

🖼️

Vision Transformers (ViT)

Divide imagen en parches, trata como tokens. Self-attention aprende relaciones espaciales. Competitivo con CNNs en ImageNet.

Pruébalo Tú Mismo

Mapa de Calor de Atención

Visualiza A[i,j] como mapa de calor. Brillante = atención fuerte. Ve qué tokens atienden a cuáles (conexiones sujeto ← → verbo).

Diversidad Multi-Head

Compara 8 cabezas de atención. Cabeza 1 = sintaxis. Cabeza 2 = semántica. Cabeza 3 = posicional. Cabezas aprenden patrones complementarios.

Errores Comunes a Evitar

❌ Olvidar escalado √d_k

¿Por Qué? Dot products grandes → gradientes pequeños después de softmax. Siempre escalar por √d_k.

❌ Usar atención sin codificación posicional

¿Por Qué? Atención es invariante a permutación (sin info de orden). Agregar codificación posicional (embeddings sin/cos).

Seleccionar Oración

Número de Cabezas: 4

Mostrar Matrices Q/K/V

Haz clic en un token para ver atención

Mapa de Calor de Atención

Head 1

10%

The

17%

cat

41%

sat

17%

the

mat

Head 2

The

27%

cat

27%

sat

27%

the

mat

Head 3

22%

The

18%

cat

29%

sat

18%

the

mat

Head 4

The

18%

cat

28%

sat

18%

10%

the

21%

mat

Consulta (Q)

-0.2

-0.4

0.9

-0.2

-1.0

-0.3

-0.2

0.6

-0.7

0.8

-1.0

-0.1

-0.9

-0.7

1.0

0.7

Clave (K)

-0.9

-0.6

-0.9

-0.1

0.2

-0.2

0.1

-0.8

0.9

0.3

-0.1

0.5

1.0

-0.5

-0.9

0.7

Valor (V)

-0.5

0.8

0.2

0.1

-0.7

-0.8

-0.1

0.3

-0.3

-0.8

-1.0

0.5

0.0

0.4

0.9

-0.4

Attention Formula

Attention(Q, K, V) = softmax(QK^T / √d_k) V

Q = matriz Query, K = matriz Key, V = matriz Value, d_k = dimensión de keys

Atención Multi-Cabeza

Múltiples cabezas de atención aprenden diferentes relaciones: sintaxis, semántica, co-referencia. Combinadas para representación rica.

Auto-Atención

Cada palabra atiende a todas las palabras en oración (incluyéndose a sí misma). Captura contexto y dependencias.

Producto Punto Escalado

Attention(Q,K,V) = softmax(QK^T / √d_k) V. Escala por √d_k para prevenir saturación en softmax.

Arquitectura Transformer

BERT, GPT usan atención multi-cabeza. Sin recurrencia, procesa secuencia completa en paralelo. Revolucionó NLP.

📝 Explorador de Word Embeddings

Siguiente Herramienta

Laboratorio de Tokenización 🔤

Decisiones

Finanzas

Hogar

Productividad

Relajación

Más

Visualizador de Mecanismo de Atención

Visualizador de Mecanismo de Atención

Guía de Aprendizaje

Elige tu estilo de aprendizaje

¿Qué Hace?

¿Cómo Funciona?

Analogía Simple

Concepto Clave

Conceptos Fundamentales

Query, Key, Value (Q/K/V)

Dot-Product Escalado

Multi-Head Attention

Aplicaciones del Mundo Real

ChatGPT / GPT-4

BERT / Clasificación de Texto

Vision Transformers (ViT)

Pruébalo Tú Mismo

Mapa de Calor de Atención

Diversidad Multi-Head

Errores Comunes a Evitar

Mapa de Calor de Atención

Consulta (Q)

Clave (K)

Valor (V)

Attention Formula

Atención Multi-Cabeza

Auto-Atención

Producto Punto Escalado

Arquitectura Transformer