Explorador de Word Embeddings
Entender representación de palabras como vectores
Explorar relaciones semánticas (king - man + woman = queen)
Aprender similitud coseno
Visualizar espacios de palabras en 3D
Explorador de Word Embeddings
Visualiza relaciones semánticas en espacio vectorial
Guía de Aprendizaje
Elige tu estilo de aprendizaje
¿Qué Hace?
Mapea palabras a vectores densos en espacio continuo tal que similitud semántica = proximidad geométrica. Demuestra Word2Vec (Skip-gram/CBOW), GloVe, FastText. Visualiza similitud coseno, analogías (rey-hombre+mujer=reina), y clustering.
¿Cómo Funciona?
- 1Word2Vec Skip-gram: predecir contexto desde objetivo. Objetivo: max Σ log p(contexto|objetivo)
- 2Word2Vec CBOW: predecir objetivo desde contexto. Entrenamiento más rápido que Skip-gram
- 3GloVe: factorizar matriz de co-ocurrencia. Captura estadísticas globales
- 4Capa de embedding: tabla lookup E ∈ ℝ^(V×d) donde V=tamaño vocab, d=dim embedding
- 5Similitud coseno: sim(u,v) = (u·v)/(||u|| ||v||). Rango [-1,1], 1=idéntico
- 6Analogías: resolver rey - hombre + mujer ≈ reina mediante aritmética vectorial
Analogía Simple
Embeddings = coordenadas para palabras en espacio-de-significado. Significados similares = coordenadas cercanas. Aritmética de palabras funciona porque relaciones están codificadas como offsets vectoriales.
Concepto Clave
Embeddings densos (50-300d) superan one-hot esparsos (10K-100Kd). Capturan sintaxis (plurales, tiempo) y semántica (sinónimos, analogías). Pre-entrenados (Word2Vec, GloVe) transfieren bien a tareas posteriores.
Conceptos Fundamentales
Similitud Coseno
Mide ángulo entre vectores. sim=1 (paralelos, idénticos), sim=0 (perpendiculares, no relacionados), sim=-1 (opuestos).
Analogías Vectoriales
Resolver a:b::c:d mediante d = argmax similitud(c-a+b, v). Ejemplo: París:Francia::Berlín:? → Alemania.
Dimensionalidad de Embedding
Común: 50-300d. Mayor = más expresividad, más lento, riesgo sobreajuste. Word2Vec default: 100d. BERT: 768d.
Aplicaciones del Mundo Real
Motores de Búsqueda
Búsqueda semántica: query "laptop" coincide con "computadora", "notebook" mediante similitud de embedding. Mejor que coincidencia exacta de palabra clave.
Chatbots / Análisis de Sentimiento
Convertir texto a embeddings, alimentar clasificador. "Genial" y "excelente" tienen vectores similares → ambos sentimiento positivo.
Traducción Automática
Embeddings multilingües: alinear "dog" inglés con "perro" español en espacio vectorial compartido. Habilita traducción zero-shot.
Pruébalo Tú Mismo
Resolvedor de Analogías
Prueba rey-hombre+mujer, París-Francia+Alemania, lento-lentamente+rápido. Ve aritmética vectorial encontrar respuestas correctas.
Vecinos Más Cercanos
Buscar palabras más cercanas a "feliz": alegría, contento, complacido. Verifica embeddings capturan sinónimos.
Errores Comunes a Evitar
❌ Usar embeddings sin pre-entrenamiento
¿Por Qué? Init aleatoria tiene mal desempeño. Usa Word2Vec/GloVe pre-entrenado o entrena en corpus grande.
❌ Ignorar palabras fuera de vocabulario (OOV)
¿Por Qué? Word2Vec falla en palabras no vistas. Usa FastText (embeddings de subpalabras) o tokenización BPE.
Palabras Seleccionadas
Visualización del Espacio Vectorial
Analogías de Palabras
king - man + woman ≈ queen
Aritmética vectorial: king - man + woman debería estar cerca de queen
dog - puppy + cat ≈ kitten
Aritmética vectorial: dog - puppy + cat debería estar cerca de kitten
happy - joy + sad ≈ sadness
Aritmética vectorial: happy - joy + sad debería estar cerca de sadness
Vecinos Más Cercanos
king
- princess (1.00)
- woman (1.00)
- queen (1.00)
queen
- princess (1.00)
- king (1.00)
- woman (1.00)
man
- prince (1.00)
- woman (1.00)
- king (1.00)
Embeddings GloVe
Global Vectors (GloVe) aprende analizando estadísticas de co-ocurrencia. Palabras que aparecen juntas tienen vectores similares.
Word2Vec
Word2Vec usa redes neuronales con Skip-gram o CBOW. Predice palabras de contexto desde palabra objetivo (o viceversa).
Relaciones Semánticas
Palabras con significados similares tienen vectores similares. Distancia mide similitud semántica.
Aritmética Vectorial
Embeddings soportan analogías: king - man + woman ≈ queen. Vectores capturan relaciones semánticas.