S21L05 – 가우시안 나이브 베이즈

html
가우시안 나이브 베이즈 분류기 이해: 종합 가이드
기계 학습의 끊임없이 진화하는 환경에서 분류 알고리즘은 막대한 양의 데이터를 이해하는 데 중요한 역할을 합니다. 이러한 알고리즘 중에서 나이브 베이즈 분류기는 그 단순성과 효율성으로 돋보입니다. 이 글에서는 가우시안 나이브 베이즈 변종에 대해 심층적으로 탐구하며, 그 메커니즘, 응용 분야 및 Python을 사용한 구현에 대해 살펴봅니다. 데이터 애호가이든 경험 많은 전문가이든, 이 가이드는 프로젝트에서 가우시안 나이브 베이즈의 힘을 활용할 수 있는 지식을 제공할 것입니다.
목차

  나이브 베이즈 소개
  가우시안 나이브 베이즈란?
  기계 학습에서의 응용
  예제 시나리오: TV 구매 예측
  사전 확률 및 우도 확률 이해
  데이터 처리: 균형 잡힌 vs. 불균형
  Python으로 구현하기
  장점과 제한 사항
  결론


나이브 베이즈 소개
나이브 베이즈 분류기는 베이즈 정리에 기반한 확률론적 기계 학습 모델입니다. "나이브"라는 용어는 분류에 사용되는 특성들이 서로 독립적이라고 가정하기 때문에 붙여졌습니다. 이는 실제 상황에서는 거의 성립되지 않는 가정입니다. 이러한 과도한 단순화에도 불구하고, 나이브 베이즈는 특히 스팸 감지 및 감성 분석과 같은 텍스트 분류 작업에서 놀라울 정도로 효과적인 것으로 입증되었습니다.
가우시안 나이브 베이즈란?
전통적인 나이브 베이즈 분류기는 이산 데이터를 처리할 수 있지만, 가우시안 나이브 베이즈는 각 특성과 관련된 연속 값이 가우시안(정규) 분포를 따른다고 가정하여 연속 데이터를 위해 특별히 설계되었습니다. 이는 특성들이 종 모양의 분포를 보이는 시나리오에 적합합니다.
주요 특징:

  확률 모델: 데이터가 특정 클래스에 속할 확률을 계산합니다.
  독립성 가정: 클래스가 주어졌을 때 특성들이 독립적이라고 가정합니다.
  연속 데이터 처리: 특성의 확률 추정을 위해 가우시안 분포를 활용합니다.

기계 학습에서의 응용
가우시안 나이브 베이즈는 그 효율성과 단순성 덕분에 다양한 분야에서 널리 사용됩니다. 몇 가지 주목할 만한 응용 분야는 다음과 같습니다:

  스팸 감지: 원하지 않는 이메일을 식별합니다.
  의료 진단: 증상을 기반으로 질병을 예측합니다.
  시장 세분화: 구매 행동을 기반으로 고객을 분류합니다.
  문서 분류: 문서를 사전에 정의된 범주로 조직합니다.

예제 시나리오: TV 구매 예측
가우시안 나이브 베이즈의 메커니즘을 설명하기 위해, 특정 특성을 기반으로 개인이 TV를 구매할지 여부를 예측하는 실용적인 예를 고려해 보겠습니다.
시나리오 세부 사항:
목표: 개인을 두 그룹으로 분류합니다—TV 구매 또는 TV 미구매.
특성:

  TV 크기: 인치로 측정됩니다.
  TV 가격: 달러로 비용을 측정합니다.
  제품 페이지 체류 시간: 제품 웹페이지에서 소비한 시간을 초 단위로 측정합니다.

데이터셋 개요:
샘플 크기: 200명, 그 중 100명이 TV를 구매하고 100명이 TV를 구매하지 않아 균형 잡힌 데이터셋을 보장합니다.
균형 잡힌 데이터: 각 클래스가 동일한 수의 샘플을 가지고 있어 예측에서의 편향을 없앱니다.

사전 확률 및 우도 확률 이해
사전 확률
사전 확률은 데이터를 관찰하기 전에 클래스의 초기 확률을 나타냅니다. 우리의 예제에서:

  P(Buy TV) = 0.5
  P(Not Buy TV) = 0.5

이는 각 클래스의 샘플 수를 전체 샘플 수로 나누어 계산됩니다.
우도 확률
우도 확률은 특정 클래스가 주어졌을 때 관측된 데이터가 얼마나 확률적인지를 나타냅니다. 이는 데이터가 모델에 얼마나 잘 맞는지 평가합니다. 각 특성에 대해, 가우시안 나이브 베이즈는 이러한 확률을 계산하기 위해 정규 분포를 가정합니다.
예제:

  TV 크기:
    
      Buy TV: 우도 = 0.063
      Not Buy TV: 우도 = 0.009
    
  

Buy TV의 더 높은 우도는 TV 크기와 구매 결정 간의 더 강한 연관성을 시사합니다.
데이터 처리: 균형 잡힌 vs. 불균형
균형 잡힌 데이터
균형 잡힌 데이터셋에서는 각 클래스가 동일한 수의 샘플을 가집니다. 이러한 균형은 분류기가 특정 클래스에 대해 편향되지 않도록 보장합니다.
불균형 데이터
반대로, 불균형 데이터셋에서는 클래스가 불균등하게 나타나며, 이는 분류기의 성능을 왜곡시킬 수 있습니다. 예를 들어, 95명이 TV를 구매하고 85명만 미구매한다면, 데이터는 여전히 상대적으로 균형 잡힌 것으로 간주됩니다.

Python으로 구현하기
Python에서 가우시안 나이브 베이즈를 구현하는 것은 주로 scikit-learn과 같은 라이브러리를 사용하여 간단합니다. 아래는 제공된 Jupyter Notebook 내용을 기반으로 한 단계별 가이드입니다.
1단계: 필요한 라이브러리 가져오기




		
		
			
			
Java
			
			import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import math
			
				
					
				
					1
2
3
4
				
						import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import math
					
				
			
		


2단계: 데이터 분포 시각화
각 특성에 대해 두 클래스의 분포를 시각화하여 얼마나 잘 분리되는지 이해합니다.
TV 크기




		
		
			
			
Java
			
			mu_buy = 40
variance_buy = 30
sigma_buy = math.sqrt(variance_buy)
sizes_buy = np.linspace(mu_buy - 3*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(sizes_buy, stats.norm.pdf(sizes_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 55
variance_not_buy = 35
sigma_not_buy = math.sqrt(variance_not_buy)
sizes_not_buy = np.linspace(mu_not_buy - 5*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(sizes_not_buy, stats.norm.pdf(sizes_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Size of TV Distribution')
plt.xlabel('Size (inches)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 40
variance_buy = 30
sigma_buy = math.sqrt(variance_buy)
sizes_buy = np.linspace(mu_buy - 3*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(sizes_buy, stats.norm.pdf(sizes_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 55
variance_not_buy = 35
sigma_not_buy = math.sqrt(variance_not_buy)
sizes_not_buy = np.linspace(mu_not_buy - 5*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(sizes_not_buy, stats.norm.pdf(sizes_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Size of TV Distribution')
plt.xlabel('Size (inches)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
					
				
			
		



TV 가격




		
		
			
			
Java
			
			mu_buy = 400
variance_buy = 500
sigma_buy = math.sqrt(variance_buy)
prices_buy = np.linspace(mu_buy - 1*sigma_buy, mu_buy + 6*sigma_buy, 100)
plt.plot(prices_buy, stats.norm.pdf(prices_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 500
variance_not_buy = 350
sigma_not_buy = math.sqrt(variance_not_buy)
prices_not_buy = np.linspace(mu_not_buy - 4*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(prices_not_buy, stats.norm.pdf(prices_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Price of TV Distribution')
plt.xlabel('Price ($)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 400
variance_buy = 500
sigma_buy = math.sqrt(variance_buy)
prices_buy = np.linspace(mu_buy - 1*sigma_buy, mu_buy + 6*sigma_buy, 100)
plt.plot(prices_buy, stats.norm.pdf(prices_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 500
variance_not_buy = 350
sigma_not_buy = math.sqrt(variance_not_buy)
prices_not_buy = np.linspace(mu_not_buy - 4*sigma_not_buy, mu_not_buy + 2*sigma_not_buy, 100)
plt.plot(prices_not_buy, stats.norm.pdf(prices_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Price of TV Distribution')
plt.xlabel('Price ($)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
					
				
			
		



제품 페이지 체류 시간




		
		
			
			
Java
			
			mu_buy = 110
variance_buy = 10
sigma_buy = math.sqrt(variance_buy)
time_buy = np.linspace(mu_buy - 20*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(time_buy, stats.norm.pdf(time_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")

mu_not_buy = 50
variance_not_buy = 200
sigma_not_buy = math.sqrt(variance_not_buy)
time_not_buy = np.linspace(mu_not_buy - 3*sigma_not_buy, mu_not_buy + 5*sigma_not_buy, 100)
plt.plot(time_not_buy, stats.norm.pdf(time_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")

plt.title('Time on Product Page Distribution')
plt.xlabel('Time (seconds)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
				
						mu_buy = 110
variance_buy = 10
sigma_buy = math.sqrt(variance_buy)
time_buy = np.linspace(mu_buy - 20*sigma_buy, mu_buy + 5*sigma_buy, 100)
plt.plot(time_buy, stats.norm.pdf(time_buy, mu_buy, sigma_buy), linewidth=7.0, color="green")
 
mu_not_buy = 50
variance_not_buy = 200
sigma_not_buy = math.sqrt(variance_not_buy)
time_not_buy = np.linspace(mu_not_buy - 3*sigma_not_buy, mu_not_buy + 5*sigma_not_buy, 100)
plt.plot(time_not_buy, stats.norm.pdf(time_not_buy, mu_not_buy, sigma_not_buy), linewidth=7.0, color="red")
 
plt.title('Time on Product Page Distribution')
plt.xlabel('Time (seconds)')
plt.ylabel('Probability Density')
plt.legend(['Buy TV', 'Not Buy TV'])
plt.show()
					
				
			
		



3단계: 확률 계산
새로운 개인에 대해, 관찰된 특성을 기반으로 두 클래스의 우도를 계산합니다.
예제 계산:

  TV 크기:
    
      Buy TV: 0.063
      Not Buy TV: 0.009
    
  
  TV 가격:
    
      Buy TV: 0.008
      Not Buy TV: 0.0009
    
  
  제품 페이지 체류 시간:
    
      Buy TV: 0.03
      Not Buy TV: 0.0000000000001
    
  

확률 곱하기:




		
		
			
			
Java
			
			P_buy = 0.5 * 0.063 * 0.008 * 0.0000000000001  # 2.52e-17
P_not_buy = 0.5 * 0.009 * 0.0009 * 0.0000000000001  # Approx. 4.05e-19
			
				
					
				
					1
2
				
						P_buy = 0.5 * 0.063 * 0.008 * 0.0000000000001  # 2.52e-17
P_not_buy = 0.5 * 0.009 * 0.0009 * 0.0000000000001  # Approx. 4.05e-19
					
				
			
		


매우 작은 값으로 인해, 이는 언더플로우 문제를 초래하여 계산을 신뢰할 수 없게 만듭니다.
4단계: 로그를 사용하여 언더플로우 방지
언더플로우를 완화하기 위해, 확률을 로그 값으로 변환합니다:




		
		
			
			
Java
			
			log_P_buy = math.log(0.5) + math.log(0.063) + math.log(0.008) + math.log(0.0000000000001)
log_P_not_buy = math.log(0.5) + math.log(0.009) + math.log(0.0009) + math.log(0.0000000000001)

print(f"P(Buy TV) = {log_P_buy:.2f}")        # -38.2
print(f"P(Not Buy TV) = {log_P_not_buy:.2f}")  # -15.91
			
				
					
				
					1
2
3
4
5
				
						log_P_buy = math.log(0.5) + math.log(0.063) + math.log(0.008) + math.log(0.0000000000001)
log_P_not_buy = math.log(0.5) + math.log(0.009) + math.log(0.0009) + math.log(0.0000000000001)
 
print(f"P(Buy TV) = {log_P_buy:.2f}")        # -38.2
print(f"P(Not Buy TV) = {log_P_not_buy:.2f}")  # -15.91
					
				
			
		


로그 확률을 비교하면:

  P(Buy TV): -38.2
  P(Not Buy TV): -15.91

Buy TV에 대해 두 번의 우도를 받았음에도 불구하고, Not Buy TV 클래스의 더 높은 우도(덜 음의 로그 확률)는 개인을 Not Buy TV로 분류합니다.
장점과 제한 사항
장점

  단순성: 구현 및 이해가 쉽습니다.
  효율성: 계산이 빠르며, 대규모 데이터셋에 적합합니다.
  성능: 비교적 작은 데이터셋에서도 잘 작동합니다.
  특성 독립성: 독립성 가정 덕분에 관련 없는 특성을 자연스럽게 처리합니다.

제한 사항

  독립성 가정: 특성들이 독립적이라는 가정은 실제 데이터에서 자주 위배됩니다.
  확률 추정: 분류에는 유용하지만, 실제 확률 추정은 신뢰할 수 없을 수 있습니다.
  제로 확률: 범주형 변수가 훈련 데이터에 존재하지 않는 범주를 갖는 경우, 모델은 제로 확률을 할당하여 예측을 어렵게 만듭니다(스무딩 기술을 사용하여 처리).

결론
가우시안 나이브 베이즈 분류기는 특히 연속 데이터를 다룰 때 기계 학습 무기고에서 강력한 도구입니다. 그 단순성과 효율성은 많은 분류 작업에서 선호되는 선택이 되게 합니다. 그러나 이를 효과적으로 적용하기 위해서는 그 기본 가정 및 제한 사항을 이해하는 것이 중요합니다.
특성들이 독립적이고 데이터가 가우시안 분포를 따르는 시나리오에서는 가우시안 나이브 베이즈가 인상적인 성능을 발휘할 수 있습니다. TV 구매 예측 예제에서 보여주었듯, 균형 잡힌 데이터셋과 명확한 우도 확률을 가진 모델은 통찰력 있는 분류를 제공합니다.
모든 모델과 마찬가지로, 특정 응용 분야의 맥락 내에서 성능을 평가하고, 최적의 결과를 보장하기 위해 다른 알고리즘과 비교하는 것이 필수적입니다.

키워드: Gaussian Naive Bayes, 나이브 베이즈 분류기, 기계 학습, 분류 알고리즘, Python 구현, 베이지안 통계, 확률 모델, 데이터 과학, 예측 모델링.