Comprendiendo el Clustering K-Means en Python: Una Guía Paso a Paso

Tabla de Contenidos

Introducción al Conjunto de Datos
Resumen: El Método del Codo
Realizando Predicciones con K-Means
Visualizando Clusters con Matplotlib
Interpretando los Clusters
Extrayendo Datos de Clusters Específicos
Aplicación Práctica: Marketing Dirigido
Conclusión y Próximos Pasos

¡Bienvenidos de nuevo, amigos! En esta guía, profundizaremos en el clustering K-Means utilizando Python, ampliando los conceptos fundamentales que cubrimos en nuestra sesión anterior. Al final de este tutorial, estarás capacitado para implementar K-Means, visualizar clusters y extraer insights significativos de tus datos.

Introducción al Conjunto de Datos

Comencemos examinando nuestro conjunto de datos, que comprende tres columnas:

ID de Usuario
Puntuación de Visita en Instagram
Rango de Gastos

Este conjunto de datos sirve como base para aplicar el clustering K-Means y segmentar a los usuarios según su actividad en Instagram y comportamiento de gasto.

Resumen: El Método del Codo

En nuestra última sesión, exploramos el Método del Codo, una técnica para determinar el número óptimo de clusters (k) en K-Means. Al trazar la suma de las distancias al cuadrado desde cada punto hasta su centro de cluster asignado, el punto del «codo» sugiere el k ideal, equilibrando entre el subajuste y el sobreajuste.

Realizando Predicciones con K-Means

Para predecir las asignaciones de cluster para nuestros datos:

Inicializar K-Means: Usando la clase KMeans de sklearn.cluster, especifica el número de clusters (por ejemplo, k=4).
Ajustar el Modelo: Aplica el algoritmo K-Means a tu conjunto de datos.
Predecir Clusters: Utiliza kmeans.predict(X) para asignar cada punto de datos a un cluster, almacenando los resultados en la variable Y.

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
Y = kmeans.predict(X)

from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=4)

kmeans.fit(X)

Y = kmeans.predict(X)

Visualizando Clusters con Matplotlib

La visualización ayuda a interpretar los resultados del clustering. Usaremos matplotlib.pyplot para crear diagramas de dispersión para cada cluster.

Importar la Biblioteca:

Java

import matplotlib.pyplot as plt

1

import matplotlib.pyplot as plt

Graficar Cada Cluster:

Itera a través de cada etiqueta de cluster, filtra los puntos de datos que pertenecen a ese cluster y plótelos con colores y etiquetas distintas.

colors = ['blue', 'red', 'pink', 'black']
for i in range(4):
    plt.scatter(X[Y == i, 0], X[Y == i, 1], 
                c=colors[i], label=f'Cluster {i}')

colors = ['blue', 'red', 'pink', 'black']

for i in range(4):

plt.scatter(X[Y == i, 0], X[Y == i, 1],

c=colors[i], label=f'Cluster {i}')

Mostrar los Centroides de los Clusters:

Plotea los centros de los clusters para resaltar el punto central de cada cluster.

plt.scatter(kmeans.cluster_centers_[:, 0], 
            kmeans.cluster_centers_[:, 1], 
            s=300, c='green', label='Centroids')

plt.scatter(kmeans.cluster_centers_[:, 0],

kmeans.cluster_centers_[:, 1],

s=300, c='green', label='Centroids')

Etiquetar los Ejes y Añadir la Leyenda:
Mejora la legibilidad etiquetando los ejes y añadiendo una leyenda.

Java

plt.xlabel('Puntuación de Visita en Instagram') plt.ylabel('Puntuación de Gastos') plt.legend() plt.show()

1
2
3
4

plt.xlabel('Puntuación de Visita en Instagram')
plt.ylabel('Puntuación de Gastos')
plt.legend()
plt.show()

Interpretando los Clusters

Al visualizar, observarás clusters distintos que representan diferentes segmentos de usuarios:

Cluster 0 & 2: Usuarios con rangos de gasto más bajos.
Cluster 1 & 3: Usuarios con rangos de gasto más altos, convirtiéndolos en objetivos principales para esfuerzos de marketing.

Extrayendo Datos de Clusters Específicos

Para realizar marketing dirigido, podrías querer enfocarte en clusters específicos. Aquí te mostramos cómo extraer usuarios del, por ejemplo, Cluster 1:

cluster_1_data = data[Y == 1]
print(f"Number of users in Cluster 1: {len(cluster_1_data)}")

1 2	cluster_1_data = data[Y == 1] print(f"Number of users in Cluster 1: {len(cluster_1_data)}")

Este código filtra el conjunto de datos para incluir solo aquellos usuarios asignados al Cluster 1, permitiendo estrategias de marketing personalizadas.

Aplicación Práctica: Marketing Dirigido

Comprender tus clusters permite decisiones estratégicas. Por ejemplo:

Asignación del Presupuesto de Marketing: Asigna más recursos a clusters con puntuaciones de gasto más altas.
Campañas Personalizadas: Diseña campañas que resuenen con los rasgos específicos de cada cluster.

Conclusión y Próximos Pasos

El clustering K-Means es una herramienta poderosa para descubrir patrones ocultos en tus datos. Al visualizar e interpretar eficazmente estos clusters, las empresas pueden tomar decisiones informadas para mejorar sus estrategias de marketing.

En nuestra próxima sesión, exploraremos métodos alternativos al Método del Codo, refinando aún más nuestro enfoque para la selección óptima de clusters. ¡Mantente atento!

¡Gracias por acompañarnos! Espero que esta guía haya desmitificado el proceso de clustering K-Means en Python. ¡Feliz clustering!