머신 러닝에서 특성 선택 마스터하기: 종합 가이드

특성 선택 소개

특성 선택은 모델 구축에 사용될 관련 특성(변수, 예측 변수)의 하위 집합을 선택하는 과정을 포함합니다. 관련 없거나 중복된 데이터를 제거함으로써, 특성 선택은 모델의 성능을 향상시키고, 과적합을 줄이며, 계산 비용을 감소시킵니다.

왜 특성 선택이 중요한가

모델 성능 향상: 관련 없는 특성의 수를 줄이면 모델의 정확도가 향상될 수 있습니다.
과적합 감소: 특성이 적어지면 모델이 데이터의 노이즈를 캡처할 가능성이 줄어듭니다.
빠른 학습: 데이터가 적어지면 계산 자원이 줄어들고 모델 학습 속도가 빨라집니다.
해석 용이성 향상: 단순화된 모델은 이해하고 해석하기가 더 쉽습니다.

SelectKBest와 CHI2 이해하기

SelectKBest는 scikit-learn에서 제공하는 특성 선택 방법으로, 점수 함수에 기반하여 상위 ‘k’개의 특성을 선택합니다. CHI2 (카이제곱)과 결합될 때, 목표 변수와 각 특성 간의 독립성을 평가하여 특히 범주형 데이터에 유용하게 만듭니다.

CHI2 테스트: 두 변수 간의 빈도를 고려하여 유의한 연관성이 있는지 평가합니다.

단계별 특성 선택 과정

1. 라이브러리 및 데이터 가져오기

필요한 Python 라이브러리와 데이터셋을 가져오는 것으로 시작합니다.

import pandas as pd 
import seaborn as sns
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.compose import ColumnTransformer
from sklearn.feature_selection import SelectKBest, chi2
from sklearn.model_selection import train_test_split

import pandas as pd

import seaborn as sns

import numpy as np

from sklearn.impute import SimpleImputer

from sklearn.preprocessing import OneHotEncoder, LabelEncoder, StandardScaler, MinMaxScaler

from sklearn.compose import ColumnTransformer

from sklearn.feature_selection import SelectKBest, chi2

from sklearn.model_selection import train_test_split

데이터셋: 이 가이드에서는 Kaggle의 날씨 데이터셋을 사용합니다.

data = pd.read_csv('weatherAUS.csv')
data.head()

1 2	data = pd.read_csv('weatherAUS.csv') data.head()

2. 탐색적 데이터 분석 (EDA)

데이터의 구조와 상관관계를 이해하는 것이 중요합니다.

# 상관 행렬
corr_matrix = data.corr()
sns.heatmap(corr_matrix, annot=True)

# 상관 행렬

corr_matrix = data.corr()

sns.heatmap(corr_matrix, annot=True)

주요 관찰 사항:

특정 온도 변수 간에 강한 상관관계가 존재합니다.
습도 및 기압 속성은 목표 변수와 유의한 관계를 보여줍니다.

3. 결측 데이터 처리

결측 데이터는 결과를 왜곡시킬 수 있습니다. 이를 적절히 처리하는 것이 중요합니다.

숫자 데이터

결측 숫자 값을 채우기 위해 SimpleImputer를 ‘mean’ 전략으로 사용합니다.

from sklearn.impute import SimpleImputer

imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
numerical_cols = data.select_dtypes(include=['int64', 'float64']).columns
data[numerical_cols] = imp_mean.fit_transform(data[numerical_cols])

from sklearn.impute import SimpleImputer

imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')

numerical_cols = data.select_dtypes(include=['int64', 'float64']).columns

data[numerical_cols] = imp_mean.fit_transform(data[numerical_cols])

범주형 데이터

범주형 변수의 결측 항목을 채우기 위해 가장 빈번한 값을 사용합니다.

imp_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
categorical_cols = data.select_dtypes(include=['object']).columns
data[categorical_cols] = imp_mode.fit_transform(data[categorical_cols])

imp_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')

categorical_cols = data.select_dtypes(include=['object']).columns

data[categorical_cols] = imp_mode.fit_transform(data[categorical_cols])

4. 범주형 변수 인코딩

머신 러닝 모델은 숫자 입력을 요구하므로 범주형 변수를 인코딩해야 합니다.

원-핫 인코딩

두 개 이상의 범주가 있는 범주형 변수에 이상적입니다.

def OneHotEncoderMethod(indices, data):
    columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), indices)], remainder='passthrough')
    return columnTransformer.fit_transform(data)

one_hot_indices = [data.columns.get_loc(col) for col in ['WindGustDir', 'WindDir9am', 'WindDir3pm', 'RainToday']]
X = OneHotEncoderMethod(one_hot_indices, data)

def OneHotEncoderMethod(indices, data):

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), indices)], remainder='passthrough')

return columnTransformer.fit_transform(data)

one_hot_indices = [data.columns.get_loc(col) for col in ['WindGustDir', 'WindDir9am', 'WindDir3pm', 'RainToday']]

X = OneHotEncoderMethod(one_hot_indices, data)

레이블 인코딩

이진 범주형 변수에 적합합니다.

def LabelEncoderMethod(series):
    le = LabelEncoder()
    return le.fit_transform(series) 

y = LabelEncoderMethod(data['RainTomorrow'])

def LabelEncoderMethod(series):

le = LabelEncoder()

return le.fit_transform(series)

y = LabelEncoderMethod(data['RainTomorrow'])

인코딩 선택

고유 카테고리 수에 따라 인코딩 과정을 자동화합니다.

def EncodingSelection(X, threshold=10):
    string_cols = list(np.where((X.dtypes == object))[0])
    one_hot_encoding_indices = []
    
    for col in string_cols:
        unique_values = len(pd.unique(X[X.columns[col]]))
        if unique_values == 2 or unique_values > threshold:
            X[X.columns[col]] = LabelEncoderMethod(X[X.columns[col]])
        else:
            one_hot_encoding_indices.append(col)
                
    X = OneHotEncoderMethod(one_hot_encoding_indices, X)
    return X

X = EncodingSelection(X)

def EncodingSelection(X, threshold=10):

string_cols = list(np.where((X.dtypes == object))[0])

one_hot_encoding_indices = []

for col in string_cols:

unique_values = len(pd.unique(X[X.columns[col]]))

if unique_values == 2 or unique_values > threshold:

X[X.columns[col]] = LabelEncoderMethod(X[X.columns[col]])

else:

one_hot_encoding_indices.append(col)

X = OneHotEncoderMethod(one_hot_encoding_indices, X)

return X

X = EncodingSelection(X)

5. 특성 스케일링

특성을 표준화하면 각 특성이 결과에 동일하게 기여하도록 보장됩니다.

sc = StandardScaler(with_mean=False)
X = sc.fit_transform(X)

1 2	sc = StandardScaler(with_mean=False) X = sc.fit_transform(X)

6. SelectKBest와 CHI2 적용

목표 변수와 가장 강한 관계를 가진 상위 ‘k’개의 특성을 선택합니다.

kbest = SelectKBest(score_func=chi2, k=10)
X_temp = MinMaxScaler().fit_transform(X)
X_temp = kbest.fit_transform(X_temp, y)

kbest = SelectKBest(score_func=chi2, k=10)

X_temp = MinMaxScaler().fit_transform(X)

X_temp = kbest.fit_transform(X_temp, y)

7. 특성 선택 및 삭제

가장 관련성이 높은 특성을 식별하고 보존하며, 중요성이 낮은 특성을 삭제합니다.

# 특성 선택을 위한 점수
scores = kbest.scores_
features = data.columns[:-1]  # 목표 변수 제외

# 상위 10개 특성 선택
best_features_indices = np.argsort(scores)[-10:]
best_features = [features[i] for i in best_features_indices]

# 중요성이 낮은 특성 삭제
features_to_delete = np.argsort(scores)[:-10]
X = np.delete(X, features_to_delete, axis=1)

# 특성 선택을 위한 점수

scores = kbest.scores_

features = data.columns[:-1] # 목표 변수 제외

# 상위 10개 특성 선택

best_features_indices = np.argsort(scores)[-10:]

best_features = [features[i] for i in best_features_indices]

# 중요성이 낮은 특성 삭제

features_to_delete = np.argsort(scores)[:-10]

X = np.delete(X, features_to_delete, axis=1)

8. 데이터셋 분할

모델 성능을 평가하기 위해 데이터를 학습용과 테스트용으로 나눕니다.

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

1	X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=1)

실용 예제: 날씨 데이터셋

날씨 데이터셋을 사용하여 전체 특성 선택 파이프라인을 시연했습니다:

데이터 가져오기: pandas를 사용하여 데이터셋을 로드했습니다.
EDA: seaborn의 히트맵을 사용하여 상관관계를 시각화했습니다.
결측 데이터 처리: 숫자 및 범주형 결측 값을 보간했습니다.
인코딩: 카테고리 수에 따라 원-핫 및 레이블 인코딩을 적용했습니다.
스케일링: 데이터를 정규화하기 위해 특성을 표준화했습니다.
특성 선택: SelectKBest와 CHI2를 사용하여 상위 성능 특성을 식별했습니다.
데이터 분할: 모델 학습을 위해 데이터를 학습용과 테스트용으로 분할했습니다.

결과: 모델의 정확도를 저해하지 않으면서 특성 차원을 23에서 13으로 성공적으로 축소하여 모델 효율성을 향상시켰습니다.

특성 선택의 모범 사례

데이터 이해: 철저한 EDA를 수행하여 특성 간의 관계를 이해합니다.
결측 값 처리: 데이터 무결성을 유지하기 위해 결측 데이터를 적절히 보간합니다.
적절한 인코딩 기법 선택: 범주형 변수의 특성에 맞는 인코딩 방법을 선택합니다.
특성 스케일링: 특성을 표준화하거나 정규화하여 동일하게 기여하도록 합니다.
반복적 특성 선택: 모델을 개발하면서 특성 선택을 지속적으로 평가하고 개선합니다.
데이터 누수 방지: 데이터 분할 전에 특성 선택을 학습 데이터에만 수행하도록 합니다.

결론

특성 선택은 머신 러닝 파이프라인의 필수적인 구성 요소입니다. 관련 특성을 세심하게 선택함으로써 모델의 성능을 최적화할 뿐만 아니라 계산 자원을 효율화할 수 있습니다. SelectKBest와 CHI2와 같은 도구는 가장 영향력 있는 특성을 평가하고 선택하는 강력한 방법을 제공하여 모델이 효율적이고 효과적으로 작동하도록 보장합니다.

추가 자료

이 통찰력을 바탕으로 특성 선택 여정을 시작하고 머신 러닝 모델을 새로운 차원으로 향상시키세요!

S18L07 -특징 선택