S36L05 – Agrupamento K-means em Python

html
Implementando Agrupamento K-Means em Python: Um Guia Passo a Passo
O agrupamento é uma técnica fundamental no aprendizado de máquina não supervisionado, permitindo o agrupamento de pontos de dados com base em suas similaridades inerentes. Entre vários algoritmos de agrupamento, K-Means destaca-se por sua simplicidade e eficiência. Neste artigo, vamos passar pela implementação do agrupamento K-Means usando a biblioteca scikit-learn do Python, complementada com visualização usando a biblioteca Yellowbrick para determinar o número ótimo de clusters.
Índice

Introdução ao Agrupamento
Configurando o Ambiente
Criando e Explorando o Conjunto de Dados
Determinando o Número Ótimo de Clusters com o Método do Cotovelo
Implementando o Agrupamento K-Means
Conclusão e Próximos Passos


Introdução ao Agrupamento
O agrupamento envolve particionar um conjunto de dados em grupos, ou clusters, onde os pontos de dados dentro do mesmo cluster são mais semelhantes entre si do que aos de outros clusters. Essa técnica é amplamente utilizada em várias aplicações, incluindo segmentação de clientes, compressão de imagens e detecção de anomalias.
Agrupamento K-Means é um dos algoritmos de agrupamento mais populares devido à sua facilidade de implementação e escalabilidade. Ele visa particionar n pontos de dados em k clusters, onde cada ponto de dados pertence ao cluster com a média mais próxima.

Configurando o Ambiente
Antes de mergulhar no agrupamento, certifique-se de que você tem as bibliotecas Python necessárias instaladas. Vamos usar:

pandas para manipulação de dados
numpy para operações numéricas
matplotlib e seaborn para visualização
scikit-learn para implementar o K-Means
Yellowbrick para visualização avançada

Você pode instalar essas bibliotecas usando pip:




		
		
			
			
Java
			
			pip install pandas numpy matplotlib seaborn scikit-learn yellowbrick
			
				
					
				
					1
				
						pip install pandas numpy matplotlib seaborn scikit-learn yellowbrick
					
				
			
		



Criando e Explorando o Conjunto de Dados
Para fins de demonstração, vamos criar um conjunto de dados sintético usando o método make_blobs da scikit-learn. Este método gera blobs gaussianos isotrópicos para agrupamento.




		
		
			
			
Java
			
			import pandas as pd
from sklearn.datasets import make_blobs

# Create a synthetic dataset
X, y = make_blobs(n_samples=300, centers=5, cluster_std=0.60, random_state=0)
			
				
					
				
					1
2
3
4
5
				
						import pandas as pd
from sklearn.datasets import make_blobs
 
# Create a synthetic dataset
X, y = make_blobs(n_samples=300, centers=5, cluster_std=0.60, random_state=0)
					
				
			
		


Alternativamente, você pode usar um conjunto de dados personalizado disponível no Kaggle. O conjunto de dados fornecido inclui:

Customer IDs: Identificadores únicos para cada cliente.
Instagram Visit Score: Indica com que frequência um usuário visita o Instagram em uma escala de 0 a 100.
Spending Rank: Representa o ranking de gastos de um usuário, também em uma escala de 0 a 100.

Carregando o Conjunto de Dados:




		
		
			
			
Java
			
			# Import necessary libraries
import pandas as pd

# Read the CSV file
df = pd.read_csv('path_to_your_dataset.csv')

# Display the first 20 rows
print(df.head(20))
			
				
					
				
					1
2
3
4
5
6
7
8
				
						# Import necessary libraries
import pandas as pd
 
# Read the CSV file
df = pd.read_csv('path_to_your_dataset.csv')
 
# Display the first 20 rows
print(df.head(20))
					
				
			
		


Entendendo os Dados:

User ID: Serve como um identificador; não é usado diretamente no agrupamento.
Instagram Visit Score: Mede o engajamento do usuário com o Instagram.
Spending Rank: Reflete o comportamento de gastos do usuário.


Determinando o Número Ótimo de Clusters com o Método do Cotovelo
Selecionar o número certo de clusters (k) é crucial para um agrupamento eficaz. O Método do Cotovelo ajuda a determinar isso plotando a Soma das Quadrados Dentro do Cluster (WCSS) contra o número de clusters e identificando o "ponto de cotovelo" onde a taxa de diminuição muda drasticamente.
Usando Yellowbrick para Visualização




		
		
			
			
Java
			
			from yellowbrick.cluster import KElbowVisualizer
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# Prepare the data
X = df.iloc[:, [1, 2]].values  # Assuming columns 1 and 2 are Instagram Visit Score and Spending Rank

# Initialize KMeans
kmeans = KMeans()

# Use ElbowVisualizer to find the optimal number of clusters
visualizer = KElbowVisualizer(kmeans, k=(2,10))
visualizer.fit(X)
visualizer.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
				
						from yellowbrick.cluster import KElbowVisualizer
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
 
# Prepare the data
X = df.iloc[:, [1, 2]].values  # Assuming columns 1 and 2 are Instagram Visit Score and Spending Rank
 
# Initialize KMeans
kmeans = KMeans()
 
# Use ElbowVisualizer to find the optimal number of clusters
visualizer = KElbowVisualizer(kmeans, k=(2,10))
visualizer.fit(X)
visualizer.show()
					
				
			
		


Interpretando a Visualização:

O eixo x representa o número de clusters (k).
O eixo y mostra o WCSS.
O ponto do "cotovelo" indica o k ótimo. Neste caso, o número ótimo de clusters é determinado como 4.


Implementando o Agrupamento K-Means
Com o número ótimo de clusters identificado, agora podemos implementar o agrupamento K-Means.




		
		
			
			
Java
			
			from sklearn.cluster import KMeans

# Initialize KMeans with the optimal number of clusters
kmeans = KMeans(n_clusters=4, random_state=0)

# Fit the model to the data
kmeans.fit(X)

# Retrieve cluster labels
labels = kmeans.labels_

# Add the cluster labels to the original dataframe
df['Cluster'] = labels

print(df.head())
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
				
						from sklearn.cluster import KMeans
 
# Initialize KMeans with the optimal number of clusters
kmeans = KMeans(n_clusters=4, random_state=0)
 
# Fit the model to the data
kmeans.fit(X)
 
# Retrieve cluster labels
labels = kmeans.labels_
 
# Add the cluster labels to the original dataframe
df['Cluster'] = labels
 
print(df.head())
					
				
			
		


Parâmetros Principais:

n_clusters: O número de clusters a serem formados (determinado usando o Método do Cotovelo).
random_state: Garante a reprodutibilidade dos resultados.

Visualizando os Clusters:




		
		
			
			
Java
			
			import seaborn as sns

# Plotting the clusters
sns.scatterplot(x=X[:,0], y=X[:,1], hue=labels, palette='viridis')
plt.title('Resultados do Agrupamento K-Means')
plt.xlabel('Instagram Visit Score')
plt.ylabel('Spending Rank')
plt.legend(title='Cluster')
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						import seaborn as sns
 
# Plotting the clusters
sns.scatterplot(x=X[:,0], y=X[:,1], hue=labels, palette='viridis')
plt.title('Resultados do Agrupamento K-Means')
plt.xlabel('Instagram Visit Score')
plt.ylabel('Spending Rank')
plt.legend(title='Cluster')
plt.show()
					
				
			
		


Essa visualização ajuda a entender como os pontos de dados estão agrupados e a eficácia do agrupamento.

Conclusão e Próximos Passos
Neste guia, implementamos com sucesso o agrupamento K-Means usando a scikit-learn do Python e visualizamos os resultados com o Yellowbrick. Ao determinar o número ótimo de clusters usando o Método do Cotovelo, garantimos que nosso agrupamento fosse tanto significativo quanto eficaz.
Próximos Passos:

Interpretando os Centros dos Clusters: Analise os centróides para entender as características de cada cluster.
Marketing Direcionado: Utilize os clusters para identificar e direcionar grupos específicos de usuários em campanhas de marketing.
Técnicas Avançadas de Agrupamento: Explore outros algoritmos de agrupamento como DBSCAN ou Agrupamento Hierárquico para diferentes cenários de dados.
Escalonamento de Características: Implemente o escalonamento de características para melhorar o desempenho do agrupamento, especialmente quando as características possuem unidades ou escalas diferentes.

O agrupamento é uma ferramenta poderosa no arsenal do cientista de dados, e dominar sua implementação pode levar a insights valiosos e à tomada de decisões informadas.