S36L05 – Agrupamiento K-means en Python

html
Implementación de Clustering K-Means en Python: Una Guía Paso a Paso
El clustering es una técnica fundamental en el aprendizaje automático no supervisado, que permite agrupar puntos de datos basándose en sus similitudes inherentes. Entre varios algoritmos de clustering, K-Means se destaca por su simplicidad y eficiencia. En este artículo, recorreremos la implementación del clustering K-Means utilizando la biblioteca scikit-learn de Python, complementada con visualización usando la biblioteca Yellowbrick para determinar el número óptimo de clústeres.
Tabla de Contenidos

Introducción al Clustering
Configuración del Entorno
Creación y Exploración del Conjunto de Datos
Determinación del Número Óptimo de Clústeres con el Método del Codo
Implementación del Clustering K-Means
Conclusión y Próximos Pasos


Introducción al Clustering
El clustering implica dividir un conjunto de datos en grupos, o clústeres, donde los puntos de datos dentro del mismo clúster son más similares entre sí que a los de otros clústeres. Esta técnica se utiliza ampliamente en diversas aplicaciones, incluyendo la segmentación de clientes, la compresión de imágenes y la detección de anomalías.
Clustering K-Means es uno de los algoritmos de clustering más populares debido a su facilidad de implementación y escalabilidad. Su objetivo es dividir n puntos de datos en k clústeres, donde cada punto de datos pertenece al clúster con la media más cercana.

Configuración del Entorno
Antes de sumergirnos en el clustering, asegúrate de tener instaladas las bibliotecas de Python necesarias. Utilizaremos:

pandas para la manipulación de datos
numpy para operaciones numéricas
matplotlib y seaborn para la visualización
scikit-learn para implementar K-Means
Yellowbrick para visualización avanzada

Puedes instalar estas bibliotecas usando pip:




		
		
			
			
Java
			
			pip install pandas numpy matplotlib seaborn scikit-learn yellowbrick
			
				
					
				
					1
				
						pip install pandas numpy matplotlib seaborn scikit-learn yellowbrick
					
				
			
		



Creación y Exploración del Conjunto de Datos
Para fines de demostración, crearemos un conjunto de datos sintético utilizando el método make_blobs de scikit-learn. Este método genera blobs Gaussianos isotrópicos para clustering.




		
		
			
			
Java
			
			import pandas as pd
from sklearn.datasets import make_blobs

# Create a synthetic dataset
X, y = make_blobs(n_samples=300, centers=5, cluster_std=0.60, random_state=0)
			
				
					
				
					1
2
3
4
5
				
						import pandas as pd
from sklearn.datasets import make_blobs
 
# Create a synthetic dataset
X, y = make_blobs(n_samples=300, centers=5, cluster_std=0.60, random_state=0)
					
				
			
		


Alternativamente, puedes usar un conjunto de datos personalizado disponible en Kaggle. El conjunto de datos proporcionado incluye:

ID de Clientes: Identificadores únicos para cada cliente.
Puntuación de Visita a Instagram: Indica con qué frecuencia un usuario visita Instagram en una escala de 0 a 100.
Rango de Gastos: Representa el rango de gastos de un usuario, también en una escala de 0 a 100.

Cargando el Conjunto de Datos:




		
		
			
			
Java
			
			# Import necessary libraries
import pandas as pd

# Read the CSV file
df = pd.read_csv('path_to_your_dataset.csv')

# Display the first 20 rows
print(df.head(20))
			
				
					
				
					1
2
3
4
5
6
7
8
				
						# Import necessary libraries
import pandas as pd
 
# Read the CSV file
df = pd.read_csv('path_to_your_dataset.csv')
 
# Display the first 20 rows
print(df.head(20))
					
				
			
		


Entendiendo los Datos:

ID de Usuario: Funciona como un identificador; no se utiliza directamente en el clustering.
Puntuación de Visita a Instagram: Mide el compromiso del usuario con Instagram.
Rango de Gastos: Refleja el comportamiento de gasto del usuario.


Determinación del Número Óptimo de Clústeres con el Método del Codo
Seleccionar el número correcto de clústeres (k) es crucial para un clustering efectivo. El Método del Codo ayuda a determinar esto trazando la Suma de Cuadrados Dentro del Clúster (WCSS) contra el número de clústeres e identificando el "punto de codo" donde la tasa de disminución cambia drásticamente.
Usando Yellowbrick para la Visualización




		
		
			
			
Java
			
			from yellowbrick.cluster import KElbowVisualizer
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# Prepare the data
X = df.iloc[:, [1, 2]].values  # Assuming columns 1 and 2 are Instagram Visit Score and Spending Rank

# Initialize KMeans
kmeans = KMeans()

# Use ElbowVisualizer to find the optimal number of clusters
visualizer = KElbowVisualizer(kmeans, k=(2,10))
visualizer.fit(X)
visualizer.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
				
						from yellowbrick.cluster import KElbowVisualizer
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
 
# Prepare the data
X = df.iloc[:, [1, 2]].values  # Assuming columns 1 and 2 are Instagram Visit Score and Spending Rank
 
# Initialize KMeans
kmeans = KMeans()
 
# Use ElbowVisualizer to find the optimal number of clusters
visualizer = KElbowVisualizer(kmeans, k=(2,10))
visualizer.fit(X)
visualizer.show()
					
				
			
		


Interpretando la Visualización:

El eje x representa el número de clústeres (k).
El eje y muestra la WCSS.
El punto del "codo" indica el k óptimo. En este caso, el número óptimo de clústeres se determina que es 4.


Implementación del Clustering K-Means
Con el número óptimo de clústeres identificado, ahora podemos implementar el clustering K-Means.




		
		
			
			
Java
			
			from sklearn.cluster import KMeans

# Initialize KMeans with the optimal number of clusters
kmeans = KMeans(n_clusters=4, random_state=0)

# Fit the model to the data
kmeans.fit(X)

# Retrieve cluster labels
labels = kmeans.labels_

# Add the cluster labels to the original dataframe
df['Cluster'] = labels

print(df.head())
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
				
						from sklearn.cluster import KMeans
 
# Initialize KMeans with the optimal number of clusters
kmeans = KMeans(n_clusters=4, random_state=0)
 
# Fit the model to the data
kmeans.fit(X)
 
# Retrieve cluster labels
labels = kmeans.labels_
 
# Add the cluster labels to the original dataframe
df['Cluster'] = labels
 
print(df.head())
					
				
			
		


Parámetros Clave:

n_clusters: El número de clústeres a formar (determinado usando el Método del Codo).
random_state: Garantiza la reproducibilidad de los resultados.

Visualizando los Clústeres:




		
		
			
			
Java
			
			import seaborn as sns

# Plotting the clusters
sns.scatterplot(x=X[:,0], y=X[:,1], hue=labels, palette='viridis')
plt.title('Resultados del Clustering K-Means')
plt.xlabel('Puntuación de Visita a Instagram')
plt.ylabel('Rango de Gastos')
plt.legend(title='Clúster')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						import seaborn as sns
 
# Plotting the clusters
sns.scatterplot(x=X[:,0], y=X[:,1], hue=labels, palette='viridis')
plt.title('Resultados del Clustering K-Means')
plt.xlabel('Puntuación de Visita a Instagram')
plt.ylabel('Rango de Gastos')
plt.legend(title='Clúster')
plt.show()
					
				
			
		


Esta visualización ayuda a entender cómo se agrupan los puntos de datos y la efectividad del clustering.

Conclusión y Próximos Pasos
En esta guía, implementamos exitosamente el clustering K-Means utilizando scikit-learn de Python y visualizamos los resultados con Yellowbrick. Al determinar el número óptimo de clústeres usando el Método del Codo, aseguramos que nuestro clustering fuera tanto significativo como efectivo.
Próximos Pasos:

Interpretando los Centros de los Clústeres: Analiza los centroides para entender las características de cada clúster.
Marketing Dirigido: Utiliza los clústeres para identificar y dirigirte a grupos específicos de usuarios para campañas de marketing.
Técnicas Avanzadas de Clustering: Explora otros algoritmos de clustering como DBSCAN o Clustering Jerárquico para diferentes escenarios de datos.
Escalado de Características: Implementa el escalado de características para mejorar el rendimiento del clustering, especialmente cuando las características tienen diferentes unidades o escalas.

El clustering es una herramienta poderosa en el arsenal del científico de datos, y dominar su implementación puede llevar a valiosos insights y a una toma de decisiones informada.