html
Entendendo a Agrupação K-Means em Python: Um Guia Passo a Passo
Índice
- Introdução ao Conjunto de Dados
- Recapitulação: O Método do Cotovelo
- Fazendo Previsões com K-Means
- Visualizando Clusters com Matplotlib
- Interpretando os Clusters
- Extraindo Dados de Clusters Específicos
- Aplicação Prática: Marketing Direcionado
- Conclusão e Próximos Passos
Bem-vindos de volta, amigos! Neste guia, vamos nos aprofundar na agrupação K-Means usando Python, construindo sobre os conceitos fundamentais abordados em nossa sessão anterior. Ao final deste tutorial, você estará capacitado para implementar K-Means, visualizar clusters e extrair insights significativos dos seus dados.
Introdução ao Conjunto de Dados
Vamos começar examinando nosso conjunto de dados, que compreende três colunas:
- ID do Usuário
- Pontuação de Visitas no Instagram
- Classificação de Gastos
Este conjunto de dados serve como base para aplicar a agrupação K-Means para segmentar usuários com base em sua atividade no Instagram e comportamento de gastos.
Recapitulação: O Método do Cotovelo
Em nossa última sessão, exploramos o Método do Cotovelo—uma técnica para determinar o número ótimo de clusters (k) no K-Means. Ao plotar a soma das distâncias quadradas de cada ponto ao seu centro de cluster atribuído, o ponto do "cotovelo" sugere o k ideal, equilibrando entre subajuste e superajuste.
Fazendo Previsões com K-Means
Para prever as atribuições de cluster para nossos dados:
- Inicializar K-Means: Usando a classe
KMeans
de sklearn.cluster
, especifique o número de clusters (por exemplo, k=4
).
- Ajustar o Modelo: Aplique o algoritmo K-Means ao seu conjunto de dados.
- Prever Clusters: Use
kmeans.predict(X)
para atribuir cada ponto de dados a um cluster, armazenando os resultados na variável Y
.
12345
from sklearn.cluster import KMeans kmeans = KMeans(n_clusters=4)kmeans.fit(X)Y = kmeans.predict(X)
Visualizando Clusters com Matplotlib
A visualização ajuda na interpretação dos resultados da agrupação. Usaremos matplotlib.pyplot
para criar gráficos de dispersão para cada cluster.
- Importar a Biblioteca:
1
import matplotlib.pyplot as plt
- Plotar Cada Cluster:
Itere através de cada rótulo de cluster, filtre os pontos de dados pertencentes a esse cluster e plote-os com cores e rótulos distintos.
1234
colors = ['blue', 'red', 'pink', 'black']for i in range(4): plt.scatter(X[Y == i, 0], X[Y == i, 1], c=colors[i], label=f'Cluster {i}')
- Exibir Centróides dos Clusters:
Plote os centros dos clusters para destacar o ponto central de cada cluster.
123
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=300, c='green', label='Centroids')
- Rotular Eixos e Adicionar Legenda:
Melhore a legibilidade rotulando os eixos e adicionando uma legenda.
1234
plt.xlabel('Pontuação de Visitas no Instagram')plt.ylabel('Pontuação de Gastos')plt.legend()plt.show()
Interpretando os Clusters
Ao visualizar, você observará clusters distintos representando diferentes segmentos de usuários:
- Cluster 0 & 2: Usuários com classificações de gastos mais baixas.
- Cluster 1 & 3: Usuários com classificações de gastos mais altas, tornando-os alvos principais para esforços de marketing.
Extraindo Dados de Clusters Específicos
Para realizar marketing direcionado, você pode querer focar em clusters específicos. Veja como extrair usuários do, por exemplo, Cluster 1:
12
cluster_1_data = data[Y == 1]print(f"Number of users in Cluster 1: {len(cluster_1_data)}")
Este código filtra o conjunto de dados para incluir apenas os usuários atribuídos ao Cluster 1, permitindo estratégias de marketing personalizadas.
Aplicação Prática: Marketing Direcionado
Compreender seus clusters permite decisões estratégicas. Por exemplo:
- Alocação do Orçamento de Marketing: Alocar mais recursos para clusters com pontuações de gastos mais altas.
- Campanhas Personalizadas: Projetar campanhas que ressoem com as características específicas de cada cluster.
Conclusão e Próximos Passos
A agrupação K-Means é uma ferramenta poderosa para descobrir padrões ocultos em seus dados. Ao visualizar e interpretar efetivamente esses clusters, as empresas podem tomar decisões informadas para aprimorar suas estratégias de marketing.
Em nossa próxima sessão, exploraremos métodos alternativos ao Método do Cotovelo, refinando ainda mais nossa abordagem para a seleção ideal de clusters. Fique atento!
Obrigado por acompanhar! Espero que este guia tenha desmistificado o processo de agrupamento K-Means em Python. Boas agrupações!