K-최근접 이웃(KNN)을 활용한 다중 클래스 분류 마스터링: 종합 가이드

분류 소개

분류는 주어진 입력 데이터에 대해 범주형 레이블을 예측하는 것을 목표로 하는 감독 학습 기법입니다. 이메일의 스팸 감지, 이미지 인식, 의료 진단 등 다양한 응용 분야에서 널리 사용됩니다. 분류 작업은 크게 이진 분류와 다중 클래스 분류의 두 가지 유형으로 구분할 수 있습니다.

이진 분류 vs 다중 클래스 분류

이진 분류: 데이터를 두 개의 명확한 클래스로 분류하는 것을 포함합니다. 예를 들어, 이메일이 스팸인지 아닌지 판단하는 경우가 있습니다.
다중 클래스 분류: 두 개 이상의 클래스가 있는 시나리오로 이진 분류를 확장한 것입니다. 예를 들어, 다양한 음악 장르나 차량 유형을 분류하는 경우가 있습니다.

차이점을 이해하는 것은 알고리즘 선택과 평가 지표에 영향을 미치기 때문에 중요합니다.

K-최근접 이웃(KNN) 이해하기

K-최근접 이웃(KNN)은 분류와 회귀 작업 모두에 사용되는 단순하면서도 강력한 머신 러닝 알고리즘입니다. KNN의 작동 방식을 자세히 살펴보겠습니다:

인스턴스 기반 학습: KNN은 명시적인 모델을 구축하지 않고 대신 학습 데이터셋을 기억합니다.
거리 측정: 새로운 데이터 포인트와 학습 세트의 모든 포인트 간의 거리를 계산하여 예측을 수행합니다.
투표 메커니즘: 분류의 경우, KNN은 가장 가까운 ‘k’개의 이웃을 선택하고 그 중 가장 흔한 클래스를 새로운 데이터 포인트에 할당합니다.
‘k’의 선택: 이웃의 수인 ‘k’는 중요한 하이퍼파라미터입니다. 작은 ‘k’는 모델을 잡음에 민감하게 만들 수 있는 반면, 큰 ‘k’는 결정 경계를 부드럽게 만들 수 있습니다.

KNN은 투표를 통해 여러 클래스를 처리할 수 있는 고유한 능력 덕분에 다중 클래스 분류에 특히 효과적입니다.

다중 클래스 분류를 위한 KNN 구현

다중 클래스 분류를 위한 KNN 구현은 데이터 전처리, 특징 선택, 스케일링 및 모델 평가와 같은 여러 단계를 포함합니다. 실제 사례 연구를 통해 이러한 단계를 살펴보겠습니다.

사례 연구: 방글라 음악 장르 분류

이 섹션에서는 KNN을 사용한 다중 클래스 분류의 실용적인 구현을 방글라 음악 데이터셋을 통해 진행하겠습니다. 목표는 다양한 오디오 특징을 기반으로 노래를 여러 장르로 분류하는 것입니다.

데이터셋 개요

방글라 음악 데이터셋은 1,742곡의 데이터를 포함하며, 여섯 가지의 서로 다른 장르로 분류되어 있습니다. 각 곡은 제로 크로싱 레이트, 스펙트럼 센트로이드, 크로마 주파수, MFCCs(멜 주파수 켑스트럼 계수)와 같은 오디오 속성을 포함한 31개의 특징으로 설명됩니다.

주요 특징:

수치적 특징: 제로 크로싱, 스펙트럼 센트로이드, 스펙트럼 롤오프 등.
범주형 특징: 파일 이름과 장르를 나타내는 레이블.

목표 변수: 음악 카테고리를 나타내는 장르 레이블(label).

데이터 전처리 단계

데이터 전처리는 머신 러닝 워크플로우에서 중요한 단계입니다. 올바른 전처리는 데이터가 깨끗하고 일관되며 모델 학습에 적합하도록 합니다.

결측 데이터 처리

중요성: 결측 데이터는 결과를 왜곡하고 모델의 효율성을 감소시킬 수 있습니다. 데이터 무결성을 유지하기 위해 결측 값을 처리하는 것이 필수적입니다.

단계:

수치 데이터:
- 평균 대체 전략을 사용하여 결측 값을 채웁니다.
- SimpleImputer를 사용하여 strategy='mean'으로 구현됩니다.
범주형 데이터:
- 최빈값 대체 전략을 사용하여 결측 값을 채웁니다.
- SimpleImputer를 사용하여 strategy='most_frequent'으로 구현됩니다.

Python 구현:

import numpy as np
from sklearn.impute import SimpleImputer

# Handling numeric data
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
numerical_cols = list(np.where((X.dtypes == np.int64) | (X.dtypes == np.float64))[0])
imp_mean.fit(X.iloc[:, numerical_cols])
X.iloc[:, numerical_cols] = imp_mean.transform(X.iloc[:, numerical_cols])

# Handling categorical data
imp_freq = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
string_cols = list(np.where((X.dtypes == object))[0])
imp_freq.fit(X.iloc[:, string_cols])
X.iloc[:, string_cols] = imp_freq.transform(X.iloc[:, string_cols])

import numpy as np

from sklearn.impute import SimpleImputer

# Handling numeric data

imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

numerical_cols = list(np.where((X.dtypes == np.int64) | (X.dtypes == np.float64))[0])

imp_mean.fit(X.iloc[:, numerical_cols])

X.iloc[:, numerical_cols] = imp_mean.transform(X.iloc[:, numerical_cols])

# Handling categorical data

imp_freq = SimpleImputer(missing_values=np.nan, strategy='most_frequent')

string_cols = list(np.where((X.dtypes == object))[0])

imp_freq.fit(X.iloc[:, string_cols])

X.iloc[:, string_cols] = imp_freq.transform(X.iloc[:, string_cols])

범주형 변수 인코딩

중요성: 머신 러닝 모델은 수치적 입력을 필요로 합니다. 범주형 변수는 수치 형식으로 변환되어야 합니다.

두 가지 주요 인코딩 방법:

레이블 인코딩:
- 각 범주에 고유한 정수를 할당합니다.
- 이진 또는 순서형 범주형 변수에 적합합니다.
원-핫 인코딩:
- 각 범주에 대한 이진 열을 생성합니다.
- 두 개 이상의 범주가 있는 명목형 범주형 변수에 적합합니다.

인코딩 전략:

두 개의 클래스 또는 임계값 이상의 범주: 레이블 인코딩을 적용합니다.
기타 범주: 원-핫 인코딩을 적용합니다.

Python 구현:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder

# Label Encoding Function
def LabelEncoderMethod(series):
    le = LabelEncoder()
    return le.fit_transform(series)

# One-Hot Encoding Function
def OneHotEncoderMethod(indices, data):
    columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), indices)], remainder='passthrough')
    return columnTransformer.fit_transform(data)

# Encoding Selection Function
def EncodingSelection(X, threshold=10):
    string_cols = list(np.where((X.dtypes == object))[0])
    one_hot_encoding_indices = []
    
    for col in string_cols:
        unique_values = len(pd.unique(X[X.columns[col]]))
        if unique_values == 2 or unique_values > threshold:
            X[X.columns[col]] = LabelEncoderMethod(X[X.columns[col]])
        else:
            one_hot_encoding_indices.append(col)
    
    X = OneHotEncoderMethod(one_hot_encoding_indices, X)
    return X

# Apply Encoding Selection
X = EncodingSelection(X)

from sklearn.compose import ColumnTransformer

from sklearn.preprocessing import OneHotEncoder, LabelEncoder

# Label Encoding Function

def LabelEncoderMethod(series):

le = LabelEncoder()

return le.fit_transform(series)

# One-Hot Encoding Function

def OneHotEncoderMethod(indices, data):

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), indices)], remainder='passthrough')

return columnTransformer.fit_transform(data)

# Encoding Selection Function

def EncodingSelection(X, threshold=10):

string_cols = list(np.where((X.dtypes == object))[0])

one_hot_encoding_indices = []

for col in string_cols:

unique_values = len(pd.unique(X[X.columns[col]]))

if unique_values == 2 or unique_values > threshold:

X[X.columns[col]] = LabelEncoderMethod(X[X.columns[col]])

else:

one_hot_encoding_indices.append(col)

X = OneHotEncoderMethod(one_hot_encoding_indices, X)

return X

# Apply Encoding Selection

X = EncodingSelection(X)

특징 선택

중요성: 적절한 특징을 선택하면 관련 없거나 중복된 데이터를 제거하여 모델 성능을 향상시키고, 과적합을 줄이며, 계산 효율성을 개선할 수 있습니다.

사용된 특징 선택 방법:

카이제곱 테스트를 사용하는 SelectKBest:
- 각 특징과 목표 변수 간의 관계를 평가합니다.
- 가장 높은 점수를 가진 상위 ‘k’개의 특징을 선택합니다.

Python 구현:

from sklearn.feature_selection import SelectKBest, chi2
from sklearn.preprocessing import MinMaxScaler

# Initialize SelectKBest
kbest = SelectKBest(score_func=chi2, k=12)
scaler = MinMaxScaler()

# Fit and transform the data
X_scaled = scaler.fit_transform(X)
kbest.fit(X_scaled, y)

# Get top features
best_features = np.argsort(kbest.scores_)[-12:]
features_to_delete = np.argsort(kbest.scores_)[:-12]
X = np.delete(X, features_to_delete, axis=1)

from sklearn.feature_selection import SelectKBest, chi2

from sklearn.preprocessing import MinMaxScaler

# Initialize SelectKBest

kbest = SelectKBest(score_func=chi2, k=12)

scaler = MinMaxScaler()

# Fit and transform the data

X_scaled = scaler.fit_transform(X)

kbest.fit(X_scaled, y)

# Get top features

best_features = np.argsort(kbest.scores_)[-12:]

features_to_delete = np.argsort(kbest.scores_)[:-12]

X = np.delete(X, features_to_delete, axis=1)

특징 스케일링

중요성: 스케일링은 모든 특징이 KNN의 거리 계산에 동등하게 기여하도록 보장하여, 큰 스케일을 가진 특징이 거리 메트릭을 지배하는 것을 방지합니다.

사용된 스케일링 방법:

표준화:
- 데이터를 평균이 0이고 표준 편차가 1이 되도록 변환합니다.
- StandardScaler를 사용하여 구현됩니다.

Python 구현:

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# Split the dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

# Initialize and fit the scaler
scaler = StandardScaler(with_mean=False)
scaler.fit(X_train)

# Transform the data
X_train = scaler.transform(X_train)
X_test = scaler.transform(X_test)

from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split

# Split the dataset

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

# Initialize and fit the scaler

scaler = StandardScaler(with_mean=False)

scaler.fit(X_train)

# Transform the data

X_train = scaler.transform(X_train)

X_test = scaler.transform(X_test)

KNN 모델 구축 및 평가

데이터 전처리와 준비가 완료되면, 다음 단계는 KNN 모델을 구축하고 성능을 평가하는 것입니다.

모델 훈련

단계:

KNN 분류기 초기화:
- 이웃의 수 설정 (이 경우 k=8).
모델 훈련:
- KNN 분류기를 훈련 데이터에 적합시킵니다.
예측:
- 훈련된 모델을 사용하여 테스트 세트에 대한 예측을 수행합니다.
평가:
- 정확도 점수를 계산하여 모델의 성능을 평가합니다.

Python 구현:

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Initialize KNN with k=8
knnClassifier = KNeighborsClassifier(n_neighbors=8)

# Train the model
knnClassifier.fit(X_train, y_train)

# Make predictions
y_pred = knnClassifier.predict(X_test)

# Evaluate accuracy
accuracy = accuracy_score(y_pred, y_test)
print(f"Model Accuracy: {accuracy:.2f}")

from sklearn.neighbors import KNeighborsClassifier

from sklearn.metrics import accuracy_score

# Initialize KNN with k=8

knnClassifier = KNeighborsClassifier(n_neighbors=8)

# Train the model

knnClassifier.fit(X_train, y_train)

# Make predictions

y_pred = knnClassifier.predict(X_test)

# Evaluate accuracy

accuracy = accuracy_score(y_pred, y_test)

print(f"Model Accuracy: {accuracy:.2f}")

출력:

Model Accuracy: 0.68

1	Model Accuracy: 0.68

해석: KNN 모델은 테스트 세트의 노래를 약 68% 정확도로 올바르게 분류했습니다.

하이퍼파라미터 튜닝

‘k’ 값의 조정은 모델의 성능에 큰 영향을 미칠 수 있습니다. 다양한 ‘k’ 값을 실험하여 편향과 분산 사이의 최적의 균형을 찾는 것이 좋습니다.

# Experiment with different k values
for k in range(3, 21, 2):
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train, y_train)
    y_pred = knn.predict(X_test)
    accuracy = accuracy_score(y_pred, y_test)
    print(f"k={k}, Accuracy={accuracy:.2f}")

# Experiment with different k values

for k in range(3, 21, 2):

knn = KNeighborsClassifier(n_neighbors=k)

knn.fit(X_train, y_train)

y_pred = knn.predict(X_test)

accuracy = accuracy_score(y_pred, y_test)

print(f"k={k}, Accuracy={accuracy:.2f}")

샘플 출력:

k=3, Accuracy=0.65
k=5, Accuracy=0.66
k=7, Accuracy=0.67
k=9, Accuracy=0.68
...
k=19, Accuracy=0.65

k=3, Accuracy=0.65

k=5, Accuracy=0.66

k=7, Accuracy=0.67

k=9, Accuracy=0.68

...

k=19, Accuracy=0.65

최고 성능: 이 시나리오에서는 k 값이 9일 때 가장 높은 정확도를 얻었습니다.

결론

다중 클래스 분류는 머신 러닝에서 기본적인 작업으로, 데이터 포인트를 여러 클래스에 분류할 수 있게 합니다. 단순성과 효율성으로 잘 알려진 K-최근접 이웃(KNN) 알고리즘은 이러한 작업에 강력한 후보로 입증됩니다. 이 종합 가이드를 통해 다중 클래스 분류를 위한 KNN 구현의 복잡성을 탐구하고 데이터 전처리, 특징 선택 및 모델 평가의 중요성을 강조했습니다.

결측 데이터 처리 및 범주형 변수 인코딩부터 관련 특징 선택 및 스케일링에 이르기까지 체계적인 접근 방식을 따르면, 다중 클래스 분류 문제에 KNN의 잠재력을 충분히 활용할 수 있습니다. 성공적인 모델의 핵심은 단지 알고리즘에만 있는 것이 아니라 데이터의 품질과 준비 과정에 있음을 기억하세요.

자주 묻는 질문

1. 이진 분류와 다중 클래스 분류의 주요 차이점은 무엇인가요?

이진 분류는 데이터를 두 개의 명확한 클래스로 분류하는 반면, 다중 클래스 분류는 두 개 이상의 클래스를 가지는 시나리오로 확장됩니다.

2. 왜 KNN에서 특징 스케일링이 중요한가요?

KNN은 가장 가까운 이웃을 결정하기 위해 거리 계산에 의존합니다. 스케일링이 없으면, 큰 스케일을 가진 특징이 거리 메트릭에 비례적으로 영향을 미쳐 편향된 예측을 초래할 수 있습니다.

3. KNN에서 최적의 이웃 수(k)를 어떻게 선택하나요?

최적의 ‘k’는 편향과 분산의 균형을 맞춥니다. 일반적으로 교차 검증과 같은 실험을 통해 가장 높은 정확도를 제공하는 ‘k’ 값을 찾습니다.

4. KNN은 수치형 데이터와 범주형 데이터를 모두 처리할 수 있나요?

KNN은 주로 수치 데이터를 다루는 데 사용됩니다. 범주형 변수는 KNN을 적용하기 전에 수치 형식으로 인코딩되어야 합니다.

5. 다중 클래스 분류를 위한 KNN의 대안은 무엇이 있나요?

대안으로는 서포트 벡터 머신(SVM), 결정 트리, 랜덤 포레스트 및 신경망과 같은 알고리즘이 있으며, 각기 장점과 적합한 사용 사례가 있습니다.

S19L05 – 다중 클래스 분류를 위한 KNN

K-최근접 이웃(KNN)을 활용한 다중 클래스 분류 마스터링: 종합 가이드

목차

분류 소개

이진 분류 vs 다중 클래스 분류

K-최근접 이웃(KNN) 이해하기

다중 클래스 분류를 위한 KNN 구현

사례 연구: 방글라 음악 장르 분류

데이터셋 개요

데이터 전처리 단계

결측 데이터 처리

범주형 변수 인코딩

특징 선택

특징 스케일링

KNN 모델 구축 및 평가

모델 훈련

하이퍼파라미터 튜닝

결론

자주 묻는 질문