¿Qué es el agrupamiento de K-Means y cómo funciona su algoritmo?

¿Qué es el agrupamiento de K-Means y cómo funciona su algoritmo?
Imagen del creador de imágenes de Bing

Fundamentalmente, hay cuatro tipos de algoritmos de aprendizaje automático; algoritmos supervisados, algoritmos semi-supervisados, algoritmos no supervisados y algoritmos de aprendizaje por refuerzo. Los algoritmos supervisados son aquellos que trabajan sobre datos que tienen etiquetas. Semi-supervisado es donde parte de los datos están etiquetados y otra parte no. Sin supervisión es donde los datos no tienen etiquetas. El aprendizaje por refuerzo es un tipo de aprendizaje automático en el que tenemos un agente que trabaja para lograr un objetivo determinado y lo hace a través de prueba y error. El agente es recompensado cuando acierta y penalizado cuando se equivoca.

Nuestro enfoque está en un algoritmo de aprendizaje automático no supervisado, en particular el algoritmo de agrupamiento K-Means.

K-Means es un algoritmo de aprendizaje automático no supervisado que asigna puntos de datos a uno de los grupos K. Sin supervisión, como se mencionó anteriormente, significa que los datos no tienen etiquetas de grupo como las que tendría en un problema supervisado. El algoritmo observa los patrones en los datos y los usa para colocar cada punto de datos en un grupo con características similares. Por supuesto, existen otros algoritmos para resolver problemas de agrupamiento como DBSCAN, Agglomerative clustering, KNN y otros, pero K-Means es algo más popular en comparación con otros enfoques.

La K se refiere a los distintos grupos en los que se colocan los puntos de datos. Si K es 3, los puntos de datos se dividirán en 3 grupos. Si es 5, entonces tendremos 5 grupos. Más sobre esto más adelante.

Hay una miríada de formas en las que podemos aplicar el agrupamiento para resolver problemas del mundo real. A continuación se muestran algunos ejemplos de las aplicaciones:

Agrupación de clientes: Las empresas pueden utilizar la agrupación para agrupar a sus clientes para lograr un mejor marketing objetivo y comprender su base de clientes.
Clasificación de documentos: Agrupar documentos según los temas o palabras clave del contenido.
Segmentaciones de imagen: agrupación de píxeles de imagen antes del reconocimiento de imagen.
Agrupar a los estudiantes en función de su rendimiento.: Puede agruparlos en los de mejor desempeño, los de desempeño promedio y usarlos para mejorar la experiencia de aprendizaje.

El algoritmo ejecuta una iteración inicial en la que los puntos de datos se colocan aleatoriamente en grupos, cuyo punto central se conoce como centroide. Se calcula la distancia euclidiana de cada punto de datos a los centroides, y si la distancia de un punto es mayor que a otro centroide, el punto se reasigna al 'otro' centroide. Cuando esto sucede, el algoritmo ejecutará otra iteración y el proceso continúa hasta que todas las agrupaciones tengan la varianza mínima dentro del grupo.

Lo que queremos decir con tener una variabilidad mínima dentro de un grupo es que las características de las observaciones en un grupo deben ser lo más similares posible.

Imagine un conjunto de datos con dos variables trazadas como se muestra a continuación. Las variables podrían ser la altura y el peso de los individuos. Si tuviéramos una tercera variable como la edad, tendríamos un diagrama en 3D, pero por ahora, sigamos con el diagrama en 2D a continuación.