S21L05 – Naive Bayes Gaussiano

html
Compreendendo o Classificador Gaussian Naive Bayes: Um Guia Abrangente
No cenário em constante evolução do aprendizado de máquina, os algoritmos de classificação desempenham um papel fundamental para dar sentido a grandes quantidades de dados. Entre esses algoritmos, o classificador Naive Bayes se destaca por sua simplicidade e eficácia. Este artigo aprofunda-se na variante Gaussian Naive Bayes, explorando sua mecânica, aplicações e implementação usando Python. Seja você um entusiasta de dados ou um profissional experiente, este guia irá equipá-lo com o conhecimento para aproveitar o poder do Gaussian Naive Bayes em seus projetos.
Índice

  Introdução ao Naive Bayes
  O que é Gaussian Naive Bayes?
  Aplicações em Aprendizado de Máquina
  Cenário de Exemplo: Prevendo Compras de TVs
  Compreendendo Probabilidades Prévias e de Verossimilhança
  Manipulação de Dados: Balanceados vs. Desequilibrados
  Implementação em Python
  Vantagens e Limitações
  Conclusão


Introdução ao Naive Bayes
O classificador Naive Bayes é um modelo de aprendizado de máquina probabilístico baseado no Teorema de Bayes. É chamado de "ingênuo" porque assume que as características usadas para a classificação são independentes umas das outras, uma suposição que raramente é verdadeira em cenários do mundo real. Apesar dessa simplificação excessiva, o Naive Bayes provou ser notavelmente eficaz, especialmente em tarefas de classificação de texto como detecção de spam e análise de sentimento.
O que é Gaussian Naive Bayes?
Enquanto o classificador Naive Bayes tradicional pode lidar com dados discretos, o Gaussian Naive Bayes é especificamente projetado para dados contínuos ao assumir que os valores contínuos associados a cada característica são distribuídos de acordo com uma distribuição Gaussiana (normal). Isso o torna adequado para cenários onde as características exibem uma distribuição em forma de sino.
Características Principais:

  Modelo Probabilístico: Calcula a probabilidade dos dados pertencerem a uma classe específica.
  Assunção de Independência: As características são assumidas como independentes dado a classe.
  Manipulação de Dados Contínuos: Utiliza a distribuição Gaussiana para estimativa de probabilidade das características.

Aplicações em Aprendizado de Máquina
Gaussian Naive Bayes é amplamente utilizado em vários domínios devido à sua eficiência e simplicidade. Algumas aplicações notáveis incluem:

  Detecção de Spam: Identificação de emails indesejados.
  Diagnóstico Médico: Previsão de doenças com base em sintomas.
  Segmentação de Mercado: Classificação de clientes com base no comportamento de compra.
  Classificação de Documentos: Organização de documentos em categorias predefinidas.

Cenário de Exemplo: Prevendo Compras de TVs
Para ilustrar a mecânica do Gaussian Naive Bayes, vamos considerar um exemplo prático: prever se uma pessoa vai comprar uma TV com base em certas características.
Detalhes do Cenário:
Objetivo: Categorizar indivíduos em dois grupos—Comprar TV ou Não Comprar TV.
Características:

  Tamanho da TV: Medido em polegadas.
  Preço da TV: Custo em dólares.
  Tempo na Página do Produto: Duração passada na página do produto em segundos.

Visão Geral do Conjunto de Dados:
Tamanho da Amostra: 200 indivíduos, com 100 comprando TVs e 100 não comprando TVs, garantindo um conjunto de dados balanceado.
Dados Balanceados: Cada classe possui um número igual de amostras, eliminando viés nas previsões.

Compreendendo Probabilidades Prévias e de Verossimilhança
Probabilidade Prévia
A probabilidade prévia representa a probabilidade inicial de uma classe antes de observar quaisquer dados. No nosso exemplo:

  P(Comprar TV) = 0.5
  P(Não Comprar TV) = 0.5

Isso é calculado dividindo o número de amostras em cada classe pelo número total de amostras.
Probabilidade de Verossimilhança
A probabilidade de verossimilhança indica quão provável é os dados observados, dado uma classe específica. Ela avalia o ajuste dos dados ao modelo. Para cada característica, o Gaussian Naive Bayes assume uma distribuição normal para calcular essas probabilidades.
Exemplo:

  Tamanho da TV:
    
      Comprar TV: Verossimilhança = 0.063
      Não Comprar TV: Verossimilhança = 0.009
    
  

A maior verossimilhança para Comprar TV sugere uma associação mais forte entre o tamanho da TV e a decisão de compra.
Manipulação de Dados: Balanceados vs. Desequilibrados
Dados Balanceados
Em um conjunto de dados balanceado, cada classe possui um número equivalente de amostras. Esse equilíbrio garante que o classificador não se torne tendencioso para qualquer classe específica.
Dados Desequilibrados
Por outro lado, em um conjunto de dados desequilibrado, as classes são representadas de forma desigual, o que pode distorcer o desempenho do classificador. Por exemplo, se 95 indivíduos compram TVs e apenas 85 não compram, os dados ainda são considerados relativamente balanceados.

Implementação em Python
Implementar o Gaussian Naive Bayes em Python é simples, principalmente utilizando bibliotecas como o scikit-learn. Abaixo está um guia passo a passo baseado no conteúdo fornecido de um Jupyter Notebook.
Passo 1: Importar Bibliotecas Necessárias




		
		
			
			
Java
			
			import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import math
			
				
					
				
					1
2
3
4
				
						import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import math
					
				
			
		


Passo 2: Visualizando a Distribuição dos Dados
Para cada característica, visualize a distribuição para ambas as classes para entender quão bem elas se separam.
Tamanho da TV




		
		
			
			
Java
			
			mu_buy = 40
variance_buy = 30
sigma_buy = math.sqrt(variance_buy)
sizes_buy = np.linspace(mu_buy - 3*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(sizes_buy, stats.norm.pdf(sizes_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 55
variance_not_buy = 35
sigma_not_buy = math.sqrt(variance_not_buy)
sizes_not_buy = np.linspace(mu_not_buy - 5*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(sizes_not_buy, stats.norm.pdf(sizes_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Size of TV Distribution')
plt.xlabel('Size (inches)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 40
variance_buy = 30
sigma_buy = math.sqrt(variance_buy)
sizes_buy = np.linspace(mu_buy - 3*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(sizes_buy, stats.norm.pdf(sizes_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 55
variance_not_buy = 35
sigma_not_buy = math.sqrt(variance_not_buy)
sizes_not_buy = np.linspace(mu_not_buy - 5*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(sizes_not_buy, stats.norm.pdf(sizes_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Size of TV Distribution')
plt.xlabel('Size (inches)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
					
				
			
		



Preço da TV




		
		
			
			
Java
			
			mu_buy = 400
variance_buy = 500
sigma_buy = math.sqrt(variance_buy)
prices_buy = np.linspace(mu_buy - 1*sigma_buy, mu_buy + 6*sigma_buy, 100)
plt.plot(prices_buy, stats.norm.pdf(prices_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 500
variance_not_buy = 350
sigma_not_buy = math.sqrt(variance_not_buy)
prices_not_buy = np.linspace(mu_not_buy - 4*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(prices_not_buy, stats.norm.pdf(prices_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Price of TV Distribution')
plt.xlabel('Price ($)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 400
variance_buy = 500
sigma_buy = math.sqrt(variance_buy)
prices_buy = np.linspace(mu_buy - 1*sigma_buy, mu_buy + 6*sigma_buy, 100)
plt.plot(prices_buy, stats.norm.pdf(prices_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 500
variance_not_buy = 350
sigma_not_buy = math.sqrt(variance_not_buy)
prices_not_buy = np.linspace(mu_not_buy - 4*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(prices_not_buy, stats.norm.pdf(prices_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Price of TV Distribution')
plt.xlabel('Price ($)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
					
				
			
		



Tempo na Página do Produto




		
		
			
			
Java
			
			mu_buy = 110
variance_buy = 10
sigma_buy = math.sqrt(variance_buy)
time_buy = np.linspace(mu_buy - 20*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(time_buy, stats.norm.pdf(time_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 50
variance_not_buy = 200
sigma_not_buy = math.sqrt(variance_not_buy)
time_not_buy = np.linspace(mu_not_buy - 3*sigma_not_buy, mu_not_buy + 5*sigma_not_buy, 100)
plt.plot(time_not_buy, stats.norm.pdf(time_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Time on Product Page Distribution')
plt.xlabel('Time (seconds)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 110
variance_buy = 10
sigma_buy = math.sqrt(variance_buy)
time_buy = np.linspace(mu_buy - 20*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(time_buy, stats.norm.pdf(time_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 50
variance_not_buy = 200
sigma_not_buy = math.sqrt(variance_not_buy)
time_not_buy = np.linspace(mu_not_buy - 3*sigma_not_buy, mu_not_buy + 5*sigma_not_buy, 100)
plt.plot(time_not_buy, stats.norm.pdf(time_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Time on Product Page Distribution')
plt.xlabel('Time (seconds)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
					
				
			
		



Passo 3: Calculando Probabilidades
Para um novo indivíduo, calcule a verossimilhança de ambas as classes com base nas características observadas.
Cálculo de Exemplo:

  Tamanho da TV:
    
      Comprar TV: 0.063
      Não Comprar TV: 0.009
    
  
  Preço da TV:
    
      Comprar TV: 0.008
      Não Comprar TV: 0.0009
    
  
  Tempo na Página do Produto:
    
      Comprar TV: 0.03
      Não Comprar TV: 0.0000000000001
    
  

Multiplicando Probabilidades:




		
		
			
			
Java
			
			P_buy = 0.5 * 0.063 * 0.008 * 0.0000000000001  # 2.52e-17
P_not_buy = 0.5 * 0.009 * 0.0009 * 0.0000000000001  # Approx. 4.05e-19
			
				
					
				
					1
2
				
						P_buy = 0.5 * 0.063 * 0.008 * 0.0000000000001  # 2.52e-17
P_not_buy = 0.5 * 0.009 * 0.0009 * 0.0000000000001  # Approx. 4.05e-19
					
				
			
		


Devido aos valores extremamente pequenos, isso leva a um problema de underflow, tornando os cálculos não confiáveis.
Passo 4: Prevenindo Underflow com Logaritmos
Para mitigar o underflow, converta probabilidades para valores logarítmicos:




		
		
			
			
Java
			
			log_P_buy = math.log(0.5) + math.log(0.063) + math.log(0.008) + math.log(0.0000000000001)
log_P_not_buy = math.log(0.5) + math.log(0.009) + math.log(0.0009) + math.log(0.0000000000001)

print(f"P(Buy TV) = {log_P_buy:.2f}")        # -38.2
print(f"P(Not Buy TV) = {log_P_not_buy:.2f}")  # -15.91
			
				
					
				
					1
2
3
4
5
				
						log_P_buy = math.log(0.5) + math.log(0.063) + math.log(0.008) + math.log(0.0000000000001)
log_P_not_buy = math.log(0.5) + math.log(0.009) + math.log(0.0009) + math.log(0.0000000000001)
 
print(f"P(Buy TV) = {log_P_buy:.2f}")        # -38.2
print(f"P(Not Buy TV) = {log_P_not_buy:.2f}")  # -15.91
					
				
			
		


Comparando as probabilidades logarítmicas:

  P(Comprar TV): -38.2
  P(Não Comprar TV): -15.91

Apesar de receber dois votos para Comprar TV, a maior verossimilhança (probabilidade logarítmica menos negativa) para a classe Não Comprar TV classifica o indivíduo como Não Comprar TV.
Vantagens e Limitações
Vantagens

  Simplicidade: Fácil de implementar e entender.
  Eficiência: Computacionalmente rápido, adequado para grandes conjuntos de dados.
  Desempenho: Desempenha-se bem mesmo com conjuntos de dados relativamente pequenos.
  Independência das Características: Lida naturalmente com características irrelevantes devido à suposição de independência.

Limitações

  Assunção de Independência: A suposição de que as características são independentes frequentemente é violada em dados do mundo real.
  Estimativas de Probabilidade: Embora úteis para classificação, as estimativas de probabilidade reais podem não ser confiáveis.
  Probabilidade Zero: Se uma variável categórica possui uma categoria não presente nos dados de treinamento, o modelo atribui uma probabilidade zero, dificultando fazer previsões (tratado usando técnicas de suavização).

Conclusão
O classificador Gaussian Naive Bayes é uma ferramenta poderosa no arsenal de aprendizado de máquina, especialmente ao lidar com dados contínuos. Sua simplicidade e eficiência o tornam uma escolha preferencial para muitas tarefas de classificação. No entanto, é crucial entender suas suposições e limitações subjacentes para aplicá-lo de forma eficaz.
Em cenários onde as características são independentes e os dados seguem uma distribuição Gaussiana, o Gaussian Naive Bayes pode oferecer um desempenho impressionante. Como demonstrado no exemplo de previsão de compra de TV, mesmo com conjuntos de dados balanceados e probabilidades de verossimilhança claras, o modelo fornece classificações pertinentes.
Como com qualquer modelo, é essencial avaliar seu desempenho dentro do contexto da sua aplicação específica, possivelmente comparando-o com outros algoritmos para garantir resultados ótimos.

Palavras-chave: Gaussian Naive Bayes, classificador Naive Bayes, aprendizado de máquina, algoritmos de classificação, implementação em Python, estatística bayesiana, modelos probabilísticos, ciência de dados, modelagem preditiva.