S36L06 – Visualização

html
Entendendo a Agrupação K-Means em Python: Um Guia Passo a Passo

Índice

  Introdução ao Conjunto de Dados
  Recapitulação: O Método do Cotovelo
  Fazendo Previsões com K-Means
  Visualizando Clusters com Matplotlib
  Interpretando os Clusters
  Extraindo Dados de Clusters Específicos
  Aplicação Prática: Marketing Direcionado
  Conclusão e Próximos Passos


Bem-vindos de volta, amigos! Neste guia, vamos nos aprofundar na agrupação K-Means usando Python, construindo sobre os conceitos fundamentais abordados em nossa sessão anterior. Ao final deste tutorial, você estará capacitado para implementar K-Means, visualizar clusters e extrair insights significativos dos seus dados.

Introdução ao Conjunto de Dados
Vamos começar examinando nosso conjunto de dados, que compreende três colunas:

  ID do Usuário
  Pontuação de Visitas no Instagram
  Classificação de Gastos

Este conjunto de dados serve como base para aplicar a agrupação K-Means para segmentar usuários com base em sua atividade no Instagram e comportamento de gastos.

Recapitulação: O Método do Cotovelo
Em nossa última sessão, exploramos o Método do Cotovelo—uma técnica para determinar o número ótimo de clusters (k) no K-Means. Ao plotar a soma das distâncias quadradas de cada ponto ao seu centro de cluster atribuído, o ponto do "cotovelo" sugere o k ideal, equilibrando entre subajuste e superajuste.

Fazendo Previsões com K-Means
Para prever as atribuições de cluster para nossos dados:

  Inicializar K-Means: Usando a classe KMeans de sklearn.cluster, especifique o número de clusters (por exemplo, k=4).
  Ajustar o Modelo: Aplique o algoritmo K-Means ao seu conjunto de dados.
  Prever Clusters: Use kmeans.predict(X) para atribuir cada ponto de dados a um cluster, armazenando os resultados na variável Y.





		
		
			
			
Java
			
			from sklearn.cluster import KMeans

kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
Y = kmeans.predict(X)
			
				
					
				
					1
2
3
4
5
				
						from sklearn.cluster import KMeans
 
kmeans = KMeans(n_clusters=4)
kmeans.fit(X)
Y = kmeans.predict(X)
					
				
			
		



Visualizando Clusters com Matplotlib
A visualização ajuda na interpretação dos resultados da agrupação. Usaremos matplotlib.pyplot para criar gráficos de dispersão para cada cluster.

  Importar a Biblioteca:
    



		
		
			
			
Java
			
			import matplotlib.pyplot as plt
			
				
					
				
					1
				
						import matplotlib.pyplot as plt
					
				
			
		


  
  Plotar Cada Cluster:
    Itere através de cada rótulo de cluster, filtre os pontos de dados pertencentes a esse cluster e plote-os com cores e rótulos distintos.
    



		
		
			
			
Java
			
			colors = ['blue', 'red', 'pink', 'black']
for i in range(4):
    plt.scatter(X[Y == i, 0], X[Y == i, 1], 
                c=colors[i], label=f'Cluster {i}')
			
				
					
				
					1
2
3
4
				
						colors = ['blue', 'red', 'pink', 'black']
for i in range(4):
    plt.scatter(X[Y == i, 0], X[Y == i, 1], 
                c=colors[i], label=f'Cluster {i}')
					
				
			
		


  
  Exibir Centróides dos Clusters:
    Plote os centros dos clusters para destacar o ponto central de cada cluster.
    



		
		
			
			
Java
			
			plt.scatter(kmeans.cluster_centers_[:, 0], 
            kmeans.cluster_centers_[:, 1], 
            s=300, c='green', label='Centroids')
			
				
					
				
					1
2
3
				
						plt.scatter(kmeans.cluster_centers_[:, 0], 
            kmeans.cluster_centers_[:, 1], 
            s=300, c='green', label='Centroids')
					
				
			
		


  
  Rotular Eixos e Adicionar Legenda:
    Melhore a legibilidade rotulando os eixos e adicionando uma legenda.
    



		
		
			
			
Java
			
			plt.xlabel('Pontuação de Visitas no Instagram')
plt.ylabel('Pontuação de Gastos')
plt.legend()
plt.show()
			
				
					
				
					1
2
3
4
				
						plt.xlabel('Pontuação de Visitas no Instagram')
plt.ylabel('Pontuação de Gastos')
plt.legend()
plt.show()
					
				
			
		


  


Interpretando os Clusters
Ao visualizar, você observará clusters distintos representando diferentes segmentos de usuários:

  Cluster 0 & 2: Usuários com classificações de gastos mais baixas.
  Cluster 1 & 3: Usuários com classificações de gastos mais altas, tornando-os alvos principais para esforços de marketing.


Extraindo Dados de Clusters Específicos
Para realizar marketing direcionado, você pode querer focar em clusters específicos. Veja como extrair usuários do, por exemplo, Cluster 1:




		
		
			
			
Java
			
			cluster_1_data = data[Y == 1]
print(f"Number of users in Cluster 1: {len(cluster_1_data)}")
			
				
					
				
					1
2
				
						cluster_1_data = data[Y == 1]
print(f"Number of users in Cluster 1: {len(cluster_1_data)}")
					
				
			
		


Este código filtra o conjunto de dados para incluir apenas os usuários atribuídos ao Cluster 1, permitindo estratégias de marketing personalizadas.

Aplicação Prática: Marketing Direcionado
Compreender seus clusters permite decisões estratégicas. Por exemplo:

  Alocação do Orçamento de Marketing: Alocar mais recursos para clusters com pontuações de gastos mais altas.
  Campanhas Personalizadas: Projetar campanhas que ressoem com as características específicas de cada cluster.


Conclusão e Próximos Passos
A agrupação K-Means é uma ferramenta poderosa para descobrir padrões ocultos em seus dados. Ao visualizar e interpretar efetivamente esses clusters, as empresas podem tomar decisões informadas para aprimorar suas estratégias de marketing.
Em nossa próxima sessão, exploraremos métodos alternativos ao Método do Cotovelo, refinando ainda mais nossa abordagem para a seleção ideal de clusters. Fique atento!



Obrigado por acompanhar! Espero que este guia tenha desmistificado o processo de agrupamento K-Means em Python. Boas agrupações!