S21L06 – 파이썬을 이용한 가우시안 나이브 베이즈

html
Python에서 Gaussian Naive Bayes 구현: 종합 가이드

목차

    Gaussian Naive Bayes 소개
    데이터셋 이해하기
    데이터 전처리
        
            결측 데이터 처리
            범주형 변수 인코딩
            특징 선택
            특징 스케일링
        
    
    모델 구현
        
            K-최근접 이웃 (KNN)
            로지스틱 회귀
            Gaussian Naive Bayes
        
    
    모델 평가
    의사결정 경계 시각화
    하이퍼파라미터 튜닝
    결론
    참고문헌



1. Gaussian Naive Bayes 소개

Gaussian Naive Bayes (GNB)는 베이즈 정리를 기반으로 한 확률적 분류 알고리즘으로, 특징들이 정규 분포를 따른다고 가정합니다. 연속 데이터에 특히 효과적이며, 구현이 간단하고 상대적으로 낮은 계산 요구 사항을 제공합니다. 단순한 가정에도 불구하고, GNB는 특히 텍스트 분류 및 의료 진단 작업에서 놀라울 정도로 잘 수행됩니다.

Gaussian Naive Bayes의 주요 특징:

    확률 모델: 예측에 대한 확률을 제공합니다.
    특징 독립성 가정: 특징의 독립성을 가정하여 계산을 단순화합니다.
    효율성: 빠른 훈련 및 예측 단계.



2. 데이터셋 이해하기

우리의 구현을 위해 두 가지 데이터셋을 사용할 것입니다:


    아이리스 꽃 데이터셋: 머신러닝에서 고전적인 데이터셋으로, 세 가지 다른 종(Setosa, Virginica, Versicolor)의 아이리스 꽃 150개 샘플로 구성됩니다. 각 샘플은 꽃받침 길이, 꽃받침 너비, 꽃잎 길이, 꽃잎 너비의 네 가지 특징을 가지고 있습니다.
    WeatherAUS 데이터셋: Kaggle에서 얻은 이 데이터셋은 호주 기상 관측소의 기상 데이터를 포함하며, 온도, 강수량, 습도, 풍속 등의 특징을 포함합니다.



3. 데이터 전처리

효과적인 데이터 전처리는 강력한 머신러닝 모델을 구축하는 데 중요합니다. 우리는 WeatherAUS 데이터셋에 적용된 필수 전처리 단계를 살펴볼 것입니다.

a. 결측 데이터 처리

결측 데이터는 분석 결과를 왜곡시킬 수 있습니다. 우리는 결측값을 처리하기 위해 두 가지 전략을 사용합니다:


    수치형 특징: 평균 전략을 사용하여 대체합니다.
    범주형 특징: 가장 빈번한 값 전략을 사용하여 대체합니다.






		
		
			
			
Java
			
			import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer

# Load the dataset
data = pd.read_csv('weatherAUS.csv')

# Separate features and target
X = data.iloc[:, :-1]
y = data.iloc[:, -1]

# Identify numerical and categorical columns
numerical_cols = X.select_dtypes(include=['int64', 'float64']).columns
categorical_cols = X.select_dtypes(include=['object']).columns

# Impute numerical features with mean
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
X[numerical_cols] = imp_mean.fit_transform(X[numerical_cols])

# Impute categorical features with the most frequent value
imp_freq = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
X[categorical_cols] = imp_freq.fit_transform(X[categorical_cols])
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
				
						import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer
 
# Load the dataset
data = pd.read_csv('weatherAUS.csv')
 
# Separate features and target
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
 
# Identify numerical and categorical columns
numerical_cols = X.select_dtypes(include=['int64', 'float64']).columns
categorical_cols = X.select_dtypes(include=['object']).columns
 
# Impute numerical features with mean
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
X[numerical_cols] = imp_mean.fit_transform(X[numerical_cols])
 
# Impute categorical features with the most frequent value
imp_freq = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
X[categorical_cols] = imp_freq.fit_transform(X[categorical_cols])
					
				
			
		



b. 범주형 변수 인코딩

머신러닝 알고리즘은 숫자 입력을 필요로 합니다. 우리는 범주형 변수를 변환하기 위해 레이블 인코딩과 원-핫 인코딩을 적용합니다.





		
		
			
			
Java
			
			from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Label Encoding for binary categorical variables
le = LabelEncoder()
y = le.fit_transform(y)

# Function for encoding
def EncodingSelection(X, threshold=10):
    string_cols = list(X.select_dtypes(include=['object']).columns)
    one_hot_encoding_cols = []

    for col in string_cols:
        unique_vals = len(X[col].unique())
        if unique_vals == 2 or unique_vals &gt; threshold:
            X[col] = le.fit_transform(X[col])
        else:
            one_hot_encoding_cols.append(col)
    
    # One-Hot Encoding for remaining categorical variables
    if one_hot_encoding_cols:
        ct = ColumnTransformer([('encoder', OneHotEncoder(), one_hot_encoding_cols)], remainder='passthrough')
        X = ct.fit_transform(X)
    
    return X

X = EncodingSelection(X)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
				
						from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
 
# Label Encoding for binary categorical variables
le = LabelEncoder()
y = le.fit_transform(y)
 
# Function for encoding
def EncodingSelection(X, threshold=10):
    string_cols = list(X.select_dtypes(include=['object']).columns)
    one_hot_encoding_cols = []
 
    for col in string_cols:
        unique_vals = len(X[col].unique())
        if unique_vals == 2 or unique_vals &gt; threshold:
            X[col] = le.fit_transform(X[col])
        else:
            one_hot_encoding_cols.append(col)
    
    # One-Hot Encoding for remaining categorical variables
    if one_hot_encoding_cols:
        ct = ColumnTransformer([('encoder', OneHotEncoder(), one_hot_encoding_cols)], remainder='passthrough')
        X = ct.fit_transform(X)
    
    return X
 
X = EncodingSelection(X)
					
				
			
		



c. 특징 선택

모델 성능을 향상시키고 계산 비용을 줄이기 위해 SelectKBest 방법과 카이제곱 점수 함수를 사용하여 가장 관련 있는 특징을 선택합니다.





		
		
			
			
Java
			
			from sklearn.feature_selection import SelectKBest, chi2
from sklearn.preprocessing import MinMaxScaler

# Scale features
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

# Select top 2 features
kbest = SelectKBest(score_func=chi2, k=2)
X_selected = kbest.fit_transform(X_scaled, y)

print(f"Selected Features Shape: {X_selected.shape}")
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
				
						from sklearn.feature_selection import SelectKBest, chi2
from sklearn.preprocessing import MinMaxScaler
 
# Scale features
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)
 
# Select top 2 features
kbest = SelectKBest(score_func=chi2, k=2)
X_selected = kbest.fit_transform(X_scaled, y)
 
print(f"Selected Features Shape: {X_selected.shape}")
					
				
			
		



d. 특징 스케일링

특징을 표준화하면 각 특징이 결과에 동등하게 기여하도록 보장되며, 이는 특히 KNN과 같은 거리 기반 알고리즘에서 중요합니다.





		
		
			
			
Java
			
			from sklearn.preprocessing import StandardScaler

scaler = StandardScaler(with_mean=False)
X_scaled = scaler.fit_transform(X_selected)
			
				
					
				
					1
2
3
4
				
						from sklearn.preprocessing import StandardScaler
 
scaler = StandardScaler(with_mean=False)
X_scaled = scaler.fit_transform(X_selected)
					
				
			
		




4. 모델 구현

우리는 세 가지 분류 모델을 구현할 것입니다: K-최근접 이웃 (KNN), 로지스틱 회귀, 그리고 Gaussian Naive Bayes.

a. K-최근접 이웃 (KNN)

KNN은 가장 가까운 이웃의 다수 라벨을 기반으로 데이터 포인트를 분류합니다.





		
		
			
			
Java
			
			from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

# Split the dataset
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.20, random_state=1)

# Initialize and train KNN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# Predict and evaluate
y_pred_knn = knn.predict(X_test)
knn_accuracy = accuracy_score(y_pred_knn, y_test)
print(f"KNN Accuracy: {knn_accuracy:.2f}")
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
				
						from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
 
# Split the dataset
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.20, random_state=1)
 
# Initialize and train KNN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)
 
# Predict and evaluate
y_pred_knn = knn.predict(X_test)
knn_accuracy = accuracy_score(y_pred_knn, y_test)
print(f"KNN Accuracy: {knn_accuracy:.2f}")
					
				
			
		



출력:




		
		
			
			
Java
			
			KNN Accuracy: 0.80
			
				
					
				
					1
				
						KNN Accuracy: 0.80
					
				
			
		



b. 로지스틱 회귀

로지스틱 회귀는 범주형 종속 변수의 확률을 모델링합니다.





		
		
			
			
Java
			
			from sklearn.linear_model import LogisticRegression

# Initialize and train Logistic Regression
lr = LogisticRegression(random_state=0, max_iter=200)
lr.fit(X_train, y_train)

# Predict and evaluate
y_pred_lr = lr.predict(X_test)
lr_accuracy = accuracy_score(y_pred_lr, y_test)
print(f"Logistic Regression Accuracy: {lr_accuracy:.2f}")
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						from sklearn.linear_model import LogisticRegression
 
# Initialize and train Logistic Regression
lr = LogisticRegression(random_state=0, max_iter=200)
lr.fit(X_train, y_train)
 
# Predict and evaluate
y_pred_lr = lr.predict(X_test)
lr_accuracy = accuracy_score(y_pred_lr, y_test)
print(f"Logistic Regression Accuracy: {lr_accuracy:.2f}")
					
				
			
		



출력:




		
		
			
			
Java
			
			Logistic Regression Accuracy: 0.83
			
				
					
				
					1
				
						Logistic Regression Accuracy: 0.83
					
				
			
		



c. Gaussian Naive Bayes

GaussianNB는 각 클래스와 관련된 연속 값이 정규 분포를 따른다고 가정합니다.





		
		
			
			
Java
			
			from sklearn.naive_bayes import GaussianNB

# Initialize and train GaussianNB
gnb = GaussianNB()
gnb.fit(X_train, y_train)

# Predict and evaluate
y_pred_gnb = gnb.predict(X_test)
gnb_accuracy = accuracy_score(y_pred_gnb, y_test)
print(f"Gaussian Naive Bayes Accuracy: {gnb_accuracy:.2f}")
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						from sklearn.naive_bayes import GaussianNB
 
# Initialize and train GaussianNB
gnb = GaussianNB()
gnb.fit(X_train, y_train)
 
# Predict and evaluate
y_pred_gnb = gnb.predict(X_test)
gnb_accuracy = accuracy_score(y_pred_gnb, y_test)
print(f"Gaussian Naive Bayes Accuracy: {gnb_accuracy:.2f}")
					
				
			
		



출력:




		
		
			
			
Java
			
			Gaussian Naive Bayes Accuracy: 0.80
			
				
					
				
					1
				
						Gaussian Naive Bayes Accuracy: 0.80
					
				
			
		




5. 모델 평가

모델 평가를 통해 모델이 미지의 데이터에서 얼마나 잘 수행되는지 이해하는 것이 중요합니다. 우리는 주된 지표로 정확도 점수를 사용합니다.


    
        모델
        정확도
    
    
        K-최근접 이웃 (KNN)
        80%
    
    
        로지스틱 회귀
        83%
    
    
        Gaussian Naive Bayes
        80%
    


테스트한 모델 중 로지스틱 회귀가 WeatherAUS 데이터셋에서 KNN과 Gaussian Naive Bayes를 능가하여 데이터 특성에 기반한 모델 선택의 중요성을 강조합니다.


6. 의사결정 경계 시각화

의사결정 경계를 시각화하면 다양한 분류기가 데이터를 어떻게 분리하는지 이해하는 데 도움이 됩니다. 이를 위해 아이리스 꽃 데이터셋을 사용합니다.





		
		
			
			
Java
			
			from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt
from sklearn import datasets

def visualize_decision_regions(X, y, model):
    plot_decision_regions(X, y, clf=model)
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.title(f'Decision Boundary for {model.__class__.__name__}')
    plt.show()

# Load Iris dataset
iris = datasets.load_iris()
X_iris = iris.data[:, :2]  # First two features
y_iris = iris.target

# Initialize classifiers
knn_iris = KNeighborsClassifier(n_neighbors=3)
knn_iris.fit(X_iris, y_iris)

lr_iris = LogisticRegression(random_state=0, max_iter=200)
lr_iris.fit(X_iris, y_iris)

gnb_iris = GaussianNB()
gnb_iris.fit(X_iris, y_iris)

# Visualize decision boundaries
visualize_decision_regions(X_iris, y_iris, knn_iris)
visualize_decision_regions(X_iris, y_iris, lr_iris)
visualize_decision_regions(X_iris, y_iris, gnb_iris)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
				
						from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt
from sklearn import datasets
 
def visualize_decision_regions(X, y, model):
    plot_decision_regions(X, y, clf=model)
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.title(f'Decision Boundary for {model.__class__.__name__}')
    plt.show()
 
# Load Iris dataset
iris = datasets.load_iris()
X_iris = iris.data[:, :2]  # First two features
y_iris = iris.target
 
# Initialize classifiers
knn_iris = KNeighborsClassifier(n_neighbors=3)
knn_iris.fit(X_iris, y_iris)
 
lr_iris = LogisticRegression(random_state=0, max_iter=200)
lr_iris.fit(X_iris, y_iris)
 
gnb_iris = GaussianNB()
gnb_iris.fit(X_iris, y_iris)
 
# Visualize decision boundaries
visualize_decision_regions(X_iris, y_iris, knn_iris)
visualize_decision_regions(X_iris, y_iris, lr_iris)
visualize_decision_regions(X_iris, y_iris, gnb_iris)
					
				
			
		



시각화:


    K-최근접 이웃 (KNN): 근접성을 기반으로 보다 복잡한 경계를 포착합니다.
    로지스틱 회귀: 선형 의사결정 경계를 가집니다.
    Gaussian Naive Bayes: 확률적 가정으로 인해 곡선 경계를 가집니다.



7. 하이퍼파라미터 튜닝

초기 실험은 좋은 출발점을 제공하지만, 하이퍼파라미터를 세밀하게 조정하면 모델 성능을 더욱 향상시킬 수 있습니다. 그리드 서치 및 랜덤 서치와 같은 기법을 사용하여 각 분류기에 최적의 하이퍼파라미터 세트를 찾을 수 있습니다.





		
		
			
			
Java
			
			from sklearn.model_selection import GridSearchCV

# Example: Hyperparameter tuning for KNN
param_grid = {'n_neighbors': range(1, 10)}
grid_knn = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
grid_knn.fit(X_train, y_train)

print(f"Best KNN Parameters: {grid_knn.best_params_}")
print(f"Best KNN Accuracy: {grid_knn.best_score_:.2f}")
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						from sklearn.model_selection import GridSearchCV
 
# Example: Hyperparameter tuning for KNN
param_grid = {'n_neighbors': range(1, 10)}
grid_knn = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)
grid_knn.fit(X_train, y_train)
 
print(f"Best KNN Parameters: {grid_knn.best_params_}")
print(f"Best KNN Accuracy: {grid_knn.best_score_:.2f}")
					
				
			
		




8. 결론

Python에서 Gaussian Naive Bayes를 구현하는 것은 scikit-learn과 같은 라이브러리 덕분에 간단합니다. 단순함에도 불구하고 GNB는 경쟁력 있는 성능을 제공하여 머신러닝 무기고에서 유용한 도구가 됩니다. 그러나 앞서 살펴본 바와 같이 모델 성능은 데이터셋의 특성에 따라 달라집니다. 예를 들어, WeatherAUS 데이터셋에서 로지스틱 회귀는 GNB와 KNN보다 더 우수한 성능을 보였습니다.

주요 시사점:

    데이터 전처리: 결측 데이터 처리 및 범주형 변수 인코딩은 중요한 단계입니다.
    특징 선택: 관련 있는 특징을 선택하면 모델 성능을 향상시키고 계산 오버헤드를 줄일 수 있습니다.
    모델 선택: 항상 여러 모델을 실험하여 특정 데이터셋에 가장 적합한 모델을 식별하십시오.
    시각화: 의사결정 경계를 이해하면 모델이 데이터를 어떻게 분리하는지에 대한 통찰력을 제공합니다.


이 가이드에 설명된 단계를 따르면 Gaussian Naive Bayes와 다른 분류 알고리즘을 효과적으로 구현하고 평가하여 머신러닝 프로젝트에서 정보에 입각한 결정을 내릴 수 있습니다.


9. 참고문헌


    Scikit-learn 문서
    Kaggle WeatherAUS 데이터셋
    아이리스 데이터셋 - 위키피디아
모델	정확도
K-최근접 이웃 (KNN)	80%
로지스틱 회귀	83%
Gaussian Naive Bayes	80%