S21L05 – Bayes ingenuo gaussiano

html
Comprendiendo el Clasificador Naive Bayes Gaussiano: Una Guía Completa
En el panorama en constante evolución del aprendizaje automático, los algoritmos de clasificación juegan un papel fundamental para dar sentido a vastas cantidades de datos. Entre estos algoritmos, el clasificador Naive Bayes destaca por su simplicidad y efectividad. Este artículo profundiza en la variante Naive Bayes Gaussiano, explorando su mecánica, aplicaciones e implementación utilizando Python. Ya seas un entusiasta de los datos o un profesional experimentado, esta guía te proporcionará el conocimiento necesario para aprovechar el poder del Naive Bayes Gaussiano en tus proyectos.
Tabla de Contenidos

  Introducción a Naive Bayes
  ¿Qué es Naive Bayes Gaussiano?
  Aplicaciones en el Aprendizaje Automático
  Escenario de Ejemplo: Prediciendo Compras de TV
  Comprendiendo las Probabilidades Prior y de Verosimilitud
  Manejo de Datos: Balanceados vs. Desequilibrados
  Implementación en Python
  Ventajas y Limitaciones
  Conclusión


Introducción a Naive Bayes
El clasificador Naive Bayes es un modelo probabilístico de aprendizaje automático basado en el Teorema de Bayes. Se le denomina "naive" porque asume que las características utilizadas para la clasificación son independientes entre sí, una suposición que rara vez es cierta en escenarios del mundo real. A pesar de esta simplificación excesiva, Naive Bayes ha demostrado ser notablemente efectivo, especialmente en tareas de clasificación de textos como la detección de spam y el análisis de sentimientos.
¿Qué es Naive Bayes Gaussiano?
Mientras que el clasificador Naive Bayes tradicional puede manejar datos discretos, el Naive Bayes Gaussiano está diseñado específicamente para datos continuos al asumir que los valores continuos asociados con cada característica se distribuyen de acuerdo con una distribución Gaussiana (normal). Esto lo hace adecuado para escenarios donde las características exhiben una distribución en forma de campana.
Características Clave:

  Modelo Probabilístico: Calcula la probabilidad de que los datos pertenezcan a una clase particular.
  Asunción de Independencia: Se asume que las características son independientes dado la clase.
  Manejo de Datos Continuos: Utiliza la distribución Gaussiana para la estimación de la probabilidad de las características.

Aplicaciones en el Aprendizaje Automático
El Naive Bayes Gaussiano es ampliamente utilizado en diversos campos debido a su eficiencia y simplicidad. Algunas aplicaciones destacadas incluyen:

  Detección de Spam: Identificación de correos electrónicos no deseados.
  Diagnóstico Médico: Predicción de enfermedades basadas en síntomas.
  Segmentación de Mercado: Clasificación de clientes basada en su comportamiento de compra.
  Clasificación de Documentos: Organización de documentos en categorías predefinidas.

Escenario de Ejemplo: Prediciendo Compras de TV
Para ilustrar la mecánica del Naive Bayes Gaussiano, consideremos un ejemplo práctico: predecir si una persona comprará una TV basándose en ciertas características.
Detalles del Escenario:
Objetivo: Categorizar a los individuos en dos grupos—Comprar TV o No Comprar TV.
Características:

  Tamaño de la TV: Medido en pulgadas.
  Precio de la TV: Costo en dólares.
  Tiempo en la Página del Producto: Duración en segundos que se pasa en la página web del producto.

Descripción del Conjunto de Datos:
Tamaño de Muestra: 200 individuos, con 100 comprando TVs y 100 no comprando TVs, asegurando un conjunto de datos balanceado.
Datos Balanceados: Cada clase tiene un número igual de muestras, eliminando el sesgo en las predicciones.

Comprendiendo las Probabilidades Prior y de Verosimilitud
Probabilidad Prior
La probabilidad prior representa la probabilidad inicial de una clase antes de observar cualquier dato. En nuestro ejemplo:

  P(Comprar TV) = 0.5
  P(No Comprar TV) = 0.5

Esto se calcula dividiendo el número de muestras en cada clase por el número total de muestras.
Probabilidad de Verosimilitud
La probabilidad de verosimilitud indica cuán probable es que los datos observados pertenezcan a una clase en particular. Evalúa el ajuste de los datos al modelo. Para cada característica, el Naive Bayes Gaussiano asume una distribución normal para calcular estas probabilidades.
Ejemplo:

  Tamaño de la TV:
    
      Comprar TV: Verosimilitud = 0.063
      No Comprar TV: Verosimilitud = 0.009
    
  

La mayor verosimilitud para Comprar TV sugiere una asociación más fuerte entre el tamaño de la TV y la decisión de compra.
Manejo de Datos: Balanceados vs. Desequilibrados
Datos Balanceados
En un conjunto de datos balanceado, cada clase tiene un número equivalente de muestras. Este equilibrio asegura que el clasificador no se incline hacia ninguna clase en particular.
Datos Desequilibrados
Por el contrario, en un conjunto de datos desequilibrado, las clases están representadas de manera desigual, lo que puede sesgar el rendimiento del clasificador. Por ejemplo, si 95 individuos compran TVs y solo 85 no lo hacen, los datos aún se consideran relativamente balanceados.

Implementación en Python
Implementar Naive Bayes Gaussiano en Python es directo, utilizando principalmente bibliotecas como scikit-learn. A continuación se presenta una guía paso a paso basada en el contenido proporcionado del Notebook de Jupyter.
Paso 1: Importar las Bibliotecas Necesarias




		
		
			
			
Java
			
			import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import math
			
				
					
				
					1
2
3
4
				
						import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import math
					
				
			
		


Paso 2: Visualizando la Distribución de Datos
Para cada característica, visualiza la distribución para ambas clases para entender cómo se separan.
Tamaño de la TV




		
		
			
			
Java
			
			mu_buy = 40
variance_buy = 30
sigma_buy = math.sqrt(variance_buy)
sizes_buy = np.linspace(mu_buy - 3*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(sizes_buy, stats.norm.pdf(sizes_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 55
variance_not_buy = 35
sigma_not_buy = math.sqrt(variance_not_buy)
sizes_not_buy = np.linspace(mu_not_buy - 5*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(sizes_not_buy, stats.norm.pdf(sizes_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Distribución del Tamaño de la TV')
plt.xlabel('Tamaño (pulgadas)')
plt.ylabel('Densidad de Probabilidad')
plt.legend(['Comprar TV', 'No Comprar TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 40
variance_buy = 30
sigma_buy = math.sqrt(variance_buy)
sizes_buy = np.linspace(mu_buy - 3*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(sizes_buy, stats.norm.pdf(sizes_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 55
variance_not_buy = 35
sigma_not_buy = math.sqrt(variance_not_buy)
sizes_not_buy = np.linspace(mu_not_buy - 5*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(sizes_not_buy, stats.norm.pdf(sizes_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Distribución del Tamaño de la TV')
plt.xlabel('Tamaño (pulgadas)')
plt.ylabel('Densidad de Probabilidad')
plt.legend(['Comprar TV', 'No Comprar TV'])
plt.show()
					
				
			
		



Precio de la TV




		
		
			
			
Java
			
			mu_buy = 400
variance_buy = 500
sigma_buy = math.sqrt(variance_buy)
prices_buy = np.linspace(mu_buy - 1*sigma_buy, mu_buy + 6*sigma_buy, 100)
plt.plot(prices_buy, stats.norm.pdf(prices_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 500
variance_not_buy = 350
sigma_not_buy = math.sqrt(variance_not_buy)
prices_not_buy = np.linspace(mu_not_buy - 4*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(prices_not_buy, stats.norm.pdf(prices_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Distribución del Precio de la TV')
plt.xlabel('Precio ($)')
plt.ylabel('Densidad de Probabilidad')
plt.legend(['Comprar TV', 'No Comprar TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 400
variance_buy = 500
sigma_buy = math.sqrt(variance_buy)
prices_buy = np.linspace(mu_buy - 1*sigma_buy, mu_buy + 6*sigma_buy, 100)
plt.plot(prices_buy, stats.norm.pdf(prices_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 500
variance_not_buy = 350
sigma_not_buy = math.sqrt(variance_not_buy)
prices_not_buy = np.linspace(mu_not_buy - 4*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(prices_not_buy, stats.norm.pdf(prices_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Distribución del Precio de la TV')
plt.xlabel('Precio ($)')
plt.ylabel('Densidad de Probabilidad')
plt.legend(['Comprar TV', 'No Comprar TV'])
plt.show()
					
				
			
		



Tiempo en la Página del Producto




		
		
			
			
Java
			
			mu_buy = 110
variance_buy = 10
sigma_buy = math.sqrt(variance_buy)
time_buy = np.linspace(mu_buy - 20*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(time_buy, stats.norm.pdf(time_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 50
variance_not_buy = 200
sigma_not_buy = math.sqrt(variance_not_buy)
time_not_buy = np.linspace(mu_not_buy - 3*sigma_not_buy, mu_not_buy + 5*sigma_not_buy, 100)
plt.plot(time_not_buy, stats.norm.pdf(time_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Distribución del Tiempo en la Página del Producto')
plt.xlabel('Tiempo (segundos)')
plt.ylabel('Densidad de Probabilidad')
plt.legend(['Comprar TV', 'No Comprar TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 110
variance_buy = 10
sigma_buy = math.sqrt(variance_buy)
time_buy = np.linspace(mu_buy - 20*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(time_buy, stats.norm.pdf(time_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 50
variance_not_buy = 200
sigma_not_buy = math.sqrt(variance_not_buy)
time_not_buy = np.linspace(mu_not_buy - 3*sigma_not_buy, mu_not_buy + 5*sigma_not_buy, 100)
plt.plot(time_not_buy, stats.norm.pdf(time_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Distribución del Tiempo en la Página del Producto')
plt.xlabel('Tiempo (segundos)')
plt.ylabel('Densidad de Probabilidad')
plt.legend(['Comprar TV', 'No Comprar TV'])
plt.show()
					
				
			
		



Paso 3: Calculando Probabilidades
Para un nuevo individuo, calcula la verosimilitud de ambas clases basándose en las características observadas.
Cálculo de Ejemplo:

  Tamaño de la TV:
    
      Comprar TV: 0.063
      No Comprar TV: 0.009
    
  
  Precio de la TV:
    
      Comprar TV: 0.008
      No Comprar TV: 0.0009
    
  
  Tiempo en la Página del Producto:
    
      Comprar TV: 0.03
      No Comprar TV: 0.0000000000001
    
  

Multiplicando Probabilidades:




		
		
			
			
Java
			
			P_buy = 0.5 * 0.063 * 0.008 * 0.0000000000001  # 2.52e-17
P_not_buy = 0.5 * 0.009 * 0.0009 * 0.0000000000001  # Aproximadamente 4.05e-19
			
				
					
				
					1
2
				
						P_buy = 0.5 * 0.063 * 0.008 * 0.0000000000001  # 2.52e-17
P_not_buy = 0.5 * 0.009 * 0.0009 * 0.0000000000001  # Aproximadamente 4.05e-19
					
				
			
		


Debido a los valores extremadamente pequeños, esto conduce a un problema de subdesbordamiento, haciendo que los cálculos sean poco fiables.
Paso 4: Previniendo el Subdesbordamiento con Logaritmos
Para mitigar el subdesbordamiento, convierte las probabilidades a valores logarítmicos:




		
		
			
			
Java
			
			log_P_buy = math.log(0.5) + math.log(0.063) + math.log(0.008) + math.log(0.0000000000001)
log_P_not_buy = math.log(0.5) + math.log(0.009) + math.log(0.0009) + math.log(0.0000000000001)

print(f"P(Comprar TV) = {log_P_buy:.2f}")        # -38.2
print(f"P(No Comprar TV) = {log_P_not_buy:.2f}")  # -15.91
			
				
					
				
					1
2
3
4
5
				
						log_P_buy = math.log(0.5) + math.log(0.063) + math.log(0.008) + math.log(0.0000000000001)
log_P_not_buy = math.log(0.5) + math.log(0.009) + math.log(0.0009) + math.log(0.0000000000001)
 
print(f"P(Comprar TV) = {log_P_buy:.2f}")        # -38.2
print(f"P(No Comprar TV) = {log_P_not_buy:.2f}")  # -15.91
					
				
			
		


Comparando las probabilidades logarítmicas:

  P(Comprar TV): -38.2
  P(No Comprar TV): -15.91

A pesar de recibir dos votos para Comprar TV, la mayor verosimilitud (probabilidad logarítmica menos negativa) para la clase No Comprar TV clasifica al individuo como No Comprar TV.
Ventajas y Limitaciones
Ventajas

  Simplicidad: Fácil de implementar y comprender.
  Eficiencia: Computacionalmente rápido, adecuado para grandes conjuntos de datos.
  Rendimiento: Funciona bien incluso con conjuntos de datos relativamente pequeños.
  Independencia de Características: Maneja naturalmente características irrelevantes debido a la asunción de independencia.

Limitaciones

  Asunción de Independencia: La asunción de que las características son independientes a menudo se viola en datos del mundo real.
  Estimaciones de Probabilidad: Aunque útiles para la clasificación, las estimaciones de probabilidad reales pueden no ser fiables.
  Probabilidad Cero: Si una variable categórica tiene una categoría no presente en los datos de entrenamiento, el modelo asigna una probabilidad cero, lo que dificulta hacer predicciones (se maneja utilizando técnicas de suavizado).

Conclusión
El clasificador Naive Bayes Gaussiano es una herramienta poderosa en el arsenal del aprendizaje automático, especialmente al tratar con datos continuos. Su simplicidad y eficiencia lo convierten en una opción preferida para muchas tareas de clasificación. Sin embargo, es crucial comprender sus suposiciones y limitaciones subyacentes para aplicarlo de manera efectiva.
En escenarios donde las características son independientes y los datos siguen una distribución Gaussiana, el Naive Bayes Gaussiano puede ofrecer un rendimiento impresionante. Como se demuestra en el ejemplo de predicción de compras de TV, incluso con conjuntos de datos balanceados y probabilidades de verosimilitud claras, el modelo proporciona clasificaciones informativas.
Como con cualquier modelo, es esencial evaluar su rendimiento dentro del contexto de tu aplicación específica, posiblemente comparándolo con otros algoritmos para asegurar resultados óptimos.

Palabras Clave: Naive Bayes Gaussiano, clasificador Naive Bayes, aprendizaje automático, algoritmos de clasificación, implementación en Python, estadísticas bayesianas, modelos probabilísticos, ciencia de datos, modelado predictivo.