Clustering K-Means
Entender aprendizaje no supervisado
Aprender mecánica del algoritmo K-Means
Usar Método del Codo para encontrar K óptimo
Aplicar clustering a problemas reales
K-Means Clustering
Visualiza el algoritmo de agrupamiento K-Means
Agregar Puntos
Estadísticas
Parameters
Método del Codo
Guía de Aprendizaje
Elige tu estilo de aprendizaje
¿Qué Hace?
K-Means es un algoritmo de aprendizaje no supervisado que particiona n observaciones en k clusters minimizando la varianza intra-cluster (WCSS). Asigna iterativamente puntos al centroide más cercano, luego recomputa centroides hasta convergencia.
¿Cómo Funciona?
- 1Inicializar k centroides aleatorios desde distribución de datos
- 2Paso de asignación: asignar cada punto al centroide más cercano (distancia Euclidiana/Manhattan)
- 3Paso de actualización: recomputar centroides como media de puntos asignados
- 4Repetir hasta que centroides se estabilicen (convergencia) o max iteraciones
- 5Evaluar calidad de clustering mediante método Elbow (WCSS vs k), Silhouette score
- 6Manejar casos borde: clusters vacíos, sensibilidad a inicialización
Analogía Simple
K-Means es como organizar un almacén: coloca k "estaciones de gerente" (centroides), asigna cada item al gerente más cercano, luego reposiciona gerentes al centro de sus items asignados. Repite hasta que gerentes dejen de moverse.
Concepto Clave
K-Means converge a óptimos locales dependientes de inicialización. Usa k-means++ para init inteligente, ejecuta múltiples veces, valida con Elbow/Silhouette. Funciona mejor para clusters esféricos de tamaño similar.
Conceptos Fundamentales
Método del Codo
Grafica WCSS vs k. Punto "codo" indica k óptimo donde agregar más clusters produce retornos decrecientes.
Inicialización K-Means++
Siembra inteligente de centroides: primero aleatorio, centroides subsecuentes elegidos con probabilidad proporcional a D²(x). Reduce sensibilidad a inicialización.
Criterios de Convergencia
Detener cuando: (1) centroides mueven < ε, (2) cambio WCSS < ε, o (3) max iteraciones alcanzadas. Típico: 100-300 iteraciones.
Métricas de Distancia
Euclidiana (default), Manhattan (L1), similitud Coseno. Elección afecta forma de cluster y sensibilidad a outliers.
Aplicaciones del Mundo Real
Segmentación de Clientes
E-commerce agrupa clientes por comportamiento (altos gastadores, cazadores de ofertas, curiosos) para personalizar marketing.
Compresión de Imágenes
Agrupa colores de píxeles, reemplaza con centroides. 16M colores → 16 colores = 99% reducción de tamaño.
Agrupación de Documentos
Agregadores de noticias agrupan artículos similares. Vectores TF-IDF → k-means → clusters de tópicos.
Diagnóstico Médico
Agrupa síntomas de pacientes para descubrir subtipos de enfermedad y optimizar protocolos de tratamiento.
Pruébalo Tú Mismo
Experimento del Codo
Prueba k=2,3,4,5,6. Grafica WCSS. Nota caída aguda luego meseta. Codo = k óptimo.
Comparación de Métricas de Distancia
Mismos datos, prueba Euclidiana vs Manhattan. Observa cómo cambian fronteras de clusters.
Sensibilidad a Inicialización
Ejecuta 10 veces con init aleatoria. Ve clusters finales distintos. K-means++ estabiliza resultados.
Errores Comunes a Evitar
❌ Asumir que k óptimo es obvio
¿Por Qué? Debe validarse con Elbow, Silhouette. Conocimiento de dominio ayuda pero datos pueden sorprender.
❌ Ignorar escalado de features
¿Por Qué? Features con rangos grandes dominan cálculos de distancia. Normaliza/estandariza primero.
❌ Usar K-Means para clusters no esféricos
¿Por Qué? K-Means asume clusters esféricos. Para formas complejas, usa DBSCAN, Gaussian Mixture Models.