S25L01 – AdaBoost 및 XGBoost 분류기

html
AdaBoost 및 XGBoost 분류기 숙달하기: 종합 가이드

빠르게 진화하는 머신러닝 환경에서 AdaBoost 및 XGBoost와 같은 앙상블 방법은 분류 작업을 위한 강력한 도구로 부상하고 있습니다. 이 기사는 이러한 알고리즘, 그들의 구현 방식 및 다른 모델과의 비교를 깊이 있게 이해하는 내용을 다룹니다. 경험이 풍부한 데이터 과학자이든, 신예 열성가이든, 이 가이드는 머신러닝 프로젝트를 향상시키는 데 유용한 통찰력과 실용적인 코드 예제를 제공합니다.

목차


    AdaBoost 및 XGBoost 소개
    AdaBoost 이해하기
    XGBoost 이해하기
    AdaBoost와 XGBoost 비교
    AdaBoost 및 XGBoost를 위한 데이터 전처리
        
            결측 데이터 처리
            범주형 특성 인코딩
            특성 선택
        
    
    Python에서 AdaBoost 및 XGBoost 구현
    모델 평가 및 시각화
    결론
    추가 자료


AdaBoost 및 XGBoost 소개

AdaBoost (적응 부스팅)와 XGBoost (익스트림 그라디언트 부스팅)는 여러 약한 학습기를 결합하여 강력한 예측 모델을 형성하는 앙상블 학습 방법입니다. 이러한 알고리즘은 다양한 머신러닝 대회 및 실제 응용에서 높은 성능으로 인해 큰 인기를 얻고 있습니다.


    AdaBoost는 잘못 분류된 사례의 가중치를 조정하는 데 중점을 두어 모델을 반복적으로 개선합니다.
    XGBoost는 정규화를 통합하고, 결측 값을 효율적으로 처리하며, 병렬 처리 기능을 제공하여 그라디언트 부스팅을 향상시킵니다.


AdaBoost 이해하기

AdaBoost는 1997년 Freund와 Schapire가 개발한 가장 초기의 부스팅 알고리즘 중 하나입니다. 작동 방식은 다음과 같습니다:


    초기화: 모든 학습 샘플에 동일한 가중치를 할당합니다.
    반복 학습: 가중치가 부여된 데이터셋에서 약한 학습기(예: 결정 트리)를 학습시킵니다.
    오류 계산: 성능을 평가하고 잘못 분류된 샘플의 가중치를 증가시킵니다.
    최종 모델: 모든 약한 학습기를 그들의 정확도에 따라 가중치를 부여하여 결합하여 강력한 분류기를 형성합니다.


AdaBoost의 주요 특징


    부스팅 기능: 약한 학습기를 강력한 앙상블 모델로 변환합니다.
    어려운 예제에 집중: 가중치를 업데이트하여 분류하기 어려운 사례를 강조합니다.
    과적합에 대한 저항성: 적절한 하이퍼파라미터 튜닝과 함께 일반적으로 과적합에 강력합니다.


XGBoost 이해하기

Tianqi Chen이 도입한 XGBoost는 고도로 효율적이고 유연하며 휴대 가능한 최적화된 분산 그라디언트 부스팅 라이브러리입니다. 고급 기능 덕분에 많은 다른 알고리즘보다 뛰어난 성능을 발휘합니다:


    정규화: 손실 함수에 패널티 항을 추가하여 과적합을 방지합니다.
    병렬 처리: 여러 CPU 코어를 활용하여 학습 속도를 가속화합니다.
    결측 데이터 처리: 결측 값을 처리할 최적의 방향을 자동으로 학습합니다.
    트리 가지치기: 깊이 우선 방식을 사용하여 분할을 수행함으로써 복잡성을 줄입니다.


XGBoost의 주요 특징


    확장성: 대규모 데이터셋에 적합합니다.
    유연성: 회귀, 분류, 순위 매기기를 포함한 다양한 목적 함수를 지원합니다.
    효율성: 속도와 성능을 최적화하여 머신러닝 대회에서 선호되는 알고리즘입니다.


AdaBoost와 XGBoost 비교

AdaBoost와 XGBoost는 모두 부스팅 알고리즘이지만, 그들 사이에는 뚜렷한 차이점이 있습니다:


    
        특징
        AdaBoost
        XGBoost
    
    
        주요 초점
        잘못 분류된 사례의 가중치 조정
        정규화를 포함한 그라디언트 부스팅
    
    
        결측 데이터 처리
        제한적
        고급 처리 및 자동 방향 학습
    
    
        병렬 처리
        본질적으로 지원되지 않음
        완전한 병렬 처리 지원
    
    
        정규화
        최소
        광범위한 정규화 옵션
    
    
        성능
        좋음, 특히 단순한 데이터셋에서
        우수함, 특히 복잡하고 큰 데이터셋에서
    
    
        사용 용이성
        간단한 구현
        조정할 매개변수가 더 많아 더 깊은 이해 필요
    


AdaBoost 및 XGBoost를 위한 데이터 전처리

AdaBoost 및 XGBoost 분류기의 성능을 극대화하기 위해 효과적인 데이터 전처리가 매우 중요합니다. 아래는 필수적인 단계들입니다:

결측 데이터 처리

결측 값은 모델 성능에 악영향을 미칠 수 있습니다. AdaBoost와 XGBoost 모두 결측 데이터를 처리할 수 있지만, 적절한 전처리는 정확도를 향상시킵니다.


    수치 데이터: 평균 대체와 같은 전략을 사용하여 결측 값을 채웁니다.
    범주형 데이터: 최빈값(모드)을 사용하여 대체합니다.






		
		
			
			
Java
			
			import numpy as np
from sklearn.impute import SimpleImputer

# Numeric Imputation
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
X_numeric = imp_mean.fit_transform(X_numeric)

# Categorical Imputation
imp_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
X_categorical = imp_mode.fit_transform(X_categorical)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						import numpy as np
from sklearn.impute import SimpleImputer
 
# Numeric Imputation
imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean')
X_numeric = imp_mean.fit_transform(X_numeric)
 
# Categorical Imputation
imp_mode = SimpleImputer(missing_values=np.nan, strategy='most_frequent')
X_categorical = imp_mode.fit_transform(X_categorical)
					
				
			
		



범주형 특성 인코딩

머신러닝 모델은 수치 입력을 필요로 합니다. 범주형 변수를 인코딩하는 것은 필수적입니다:


    라벨 인코딩: 각 범주에 고유한 정수를 할당합니다.
    원-핫 인코딩: 각 범주에 대해 이진 열을 생성합니다.






		
		
			
			
Java
			
			from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# Label Encoding
le = LabelEncoder()
X_encoded = le.fit_transform(X['Category'])

# One-Hot Encoding
column_transformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), [0])],
    remainder='passthrough'
)
X = column_transformer.fit_transform(X)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
				
						from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer
 
# Label Encoding
le = LabelEncoder()
X_encoded = le.fit_transform(X['Category'])
 
# One-Hot Encoding
column_transformer = ColumnTransformer(
    [('encoder', OneHotEncoder(), [0])],
    remainder='passthrough'
)
X = column_transformer.fit_transform(X)
					
				
			
		



특성 선택

관련 특성을 선택하면 모델 성능이 향상되고 계산 복잡성이 줄어듭니다. 기술은 다음과 같습니다:


    카이제곱 검정: 특성의 독립성을 평가합니다.
    재귀적 특성 제거(RFE): 더 작은 집합을 재귀적으로 고려하여 특성을 선택합니다.






		
		
			
			
Java
			
			from sklearn.feature_selection import SelectKBest, chi2

# Selecting Top 10 Features
selector = SelectKBest(score_func=chi2, k=10)
X_new = selector.fit_transform(X, y)
			
				
					
				
					1
2
3
4
5
				
						from sklearn.feature_selection import SelectKBest, chi2
 
# Selecting Top 10 Features
selector = SelectKBest(score_func=chi2, k=10)
X_new = selector.fit_transform(X, y)
					
				
			
		



Python에서 AdaBoost 및 XGBoost 구현

아래는 Python의 scikit-learn 및 xgboost 라이브러리를 사용하여 AdaBoost 및 XGBoost 분류기를 구현하는 단계별 가이드입니다.

1. 라이브러리 가져오기





		
		
			
			
Java
			
			import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score
from sklearn.ensemble import AdaBoostClassifier
import xgboost as xgb
			
				
					
				
					1
2
3
4
5
6
7
				
						import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score
from sklearn.ensemble import AdaBoostClassifier
import xgboost as xgb
					
				
			
		



2. 데이터셋 로딩





		
		
			
			
Java
			
			# Load dataset
data = pd.read_csv('weatherAUS.csv')
			
				
					
				
					1
2
				
						# Load dataset
data = pd.read_csv('weatherAUS.csv')
					
				
			
		



3. 데이터 전처리





		
		
			
			
Java
			
			# Drop unnecessary columns
X = data.drop(['RISK_MM', 'RainTomorrow'], axis=1)
y = data['RainTomorrow']

# Handling missing values
imp_mean = SimpleImputer(strategy='mean')
X_numeric = X.select_dtypes(include=['int64', 'float64'])
X_categorical = X.select_dtypes(include=['object'])

X_numeric = imp_mean.fit_transform(X_numeric)
imp_mode = SimpleImputer(strategy='most_frequent')
X_categorical = imp_mode.fit_transform(X_categorical)

# Encoding categorical features
le = LabelEncoder()
for col in range(X_categorical.shape[1]):
    X_categorical[:, col] = le.fit_transform(X_categorical[:, col])

# Combining numeric and categorical features
X = np.hstack((X_numeric, X_categorical))

# Feature Scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
				
						# Drop unnecessary columns
X = data.drop(['RISK_MM', 'RainTomorrow'], axis=1)
y = data['RainTomorrow']
 
# Handling missing values
imp_mean = SimpleImputer(strategy='mean')
X_numeric = X.select_dtypes(include=['int64', 'float64'])
X_categorical = X.select_dtypes(include=['object'])
 
X_numeric = imp_mean.fit_transform(X_numeric)
imp_mode = SimpleImputer(strategy='most_frequent')
X_categorical = imp_mode.fit_transform(X_categorical)
 
# Encoding categorical features
le = LabelEncoder()
for col in range(X_categorical.shape[1]):
    X_categorical[:, col] = le.fit_transform(X_categorical[:, col])
 
# Combining numeric and categorical features
X = np.hstack((X_numeric, X_categorical))
 
# Feature Scaling
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
					
				
			
		



4. 데이터셋 분할





		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.20, random_state=1
)
			
				
					
				
					1
2
3
				
						X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.20, random_state=1
)
					
				
			
		



5. AdaBoost 분류기 학습





		
		
			
			
Java
			
			# Initialize AdaBoost
ada_classifier = AdaBoostClassifier(n_estimators=100, random_state=0)
ada_classifier.fit(X_train, y_train)

# Predictions
y_pred_adaboost = ada_classifier.predict(X_test)

# Accuracy
accuracy_adaboost = accuracy_score(y_pred_adaboost, y_test)
print(f'AdaBoost Accuracy: {accuracy_adaboost:.2f}')
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						# Initialize AdaBoost
ada_classifier = AdaBoostClassifier(n_estimators=100, random_state=0)
ada_classifier.fit(X_train, y_train)
 
# Predictions
y_pred_adaboost = ada_classifier.predict(X_test)
 
# Accuracy
accuracy_adaboost = accuracy_score(y_pred_adaboost, y_test)
print(f'AdaBoost Accuracy: {accuracy_adaboost:.2f}')
					
				
			
		



6. XGBoost 분류기 학습





		
		
			
			
Java
			
			# Initialize XGBoost
xgb_classifier = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')
xgb_classifier.fit(X_train, y_train)

# Predictions
y_pred_xgboost = xgb_classifier.predict(X_test)

# Accuracy
accuracy_xgboost = accuracy_score(y_pred_xgboost, y_test)
print(f'XGBoost Accuracy: {accuracy_xgboost:.2f}')
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						# Initialize XGBoost
xgb_classifier = xgb.XGBClassifier(use_label_encoder=False, eval_metric='logloss')
xgb_classifier.fit(X_train, y_train)
 
# Predictions
y_pred_xgboost = xgb_classifier.predict(X_test)
 
# Accuracy
accuracy_xgboost = accuracy_score(y_pred_xgboost, y_test)
print(f'XGBoost Accuracy: {accuracy_xgboost:.2f}')
					
				
			
		



7. 결과 비교


    
        모델
        정확도
    
    
        AdaBoost
        83.00%
    
    
        XGBoost
        83.02%
    


참고: 정확도의 약간의 차이는 모델 학습의 고유한 변동성 때문입니다.

모델 평가 및 시각화

결정 경계를 시각화하면 다양한 분류기가 특성 공간을 어떻게 분할하는지 이해하는 데 도움이 됩니다. 아래는 mlxtend 라이브러리를 사용하여 결정 영역을 시각화하는 Python 함수입니다.





		
		
			
			
Java
			
			from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt

def visualize_decision_regions(X, y, model):
    plot_decision_regions(X, y, clf=model)
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.title(f'Decision Regions for {model.__class__.__name__}')
    plt.show()
			
				
					
				
					1
2
3
4
5
6
7
8
9
				
						from mlxtend.plotting import plot_decision_regions
import matplotlib.pyplot as plt
 
def visualize_decision_regions(X, y, model):
    plot_decision_regions(X, y, clf=model)
    plt.xlabel('Feature 1')
    plt.ylabel('Feature 2')
    plt.title(f'Decision Regions for {model.__class__.__name__}')
    plt.show()
					
				
			
		



아이리스 데이터셋을 사용한 예제 시각화





		
		
			
			
Java
			
			from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier

# Load Iris dataset
iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target

# Initialize models
models = {
    'KNN': KNeighborsClassifier(n_neighbors=3),
    'Logistic Regression': LogisticRegression(),
    'GaussianNB': GaussianNB(),
    'SVC': SVC(),
    'DecisionTree': DecisionTreeClassifier(),
    'RandomForest': RandomForestClassifier(),
    'AdaBoost': AdaBoostClassifier()
}

# Fit and visualize
for name, model in models.items():
    model.fit(X, y)
    visualize_decision_regions(X, y, model)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
				
						from sklearn import datasets
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import GaussianNB
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, AdaBoostClassifier
 
# Load Iris dataset
iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target
 
# Initialize models
models = {
    'KNN': KNeighborsClassifier(n_neighbors=3),
    'Logistic Regression': LogisticRegression(),
    'GaussianNB': GaussianNB(),
    'SVC': SVC(),
    'DecisionTree': DecisionTreeClassifier(),
    'RandomForest': RandomForestClassifier(),
    'AdaBoost': AdaBoostClassifier()
}
 
# Fit and visualize
for name, model in models.items():
    model.fit(X, y)
    visualize_decision_regions(X, y, model)
					
				
			
		



이 시각화는 다양한 분류기가 아이리스 데이터셋의 특성 공간을 어떻게 구분하는지 보여주며, 그들의 강점과 약점을 강조합니다.

결론

AdaBoost와 XGBoost는 적절히 튜닝되었을 때 다양한 데이터셋에서 뛰어난 정확도를 달성할 수 있는 강력한 분류기입니다. AdaBoost는 단순성과 분류하기 어려운 사례에 대한 집중으로 인해 호평을 받고 있는 반면, XGBoost는 고급 기능, 확장성 및 복잡한 작업에서의 우수한 성능으로 두각을 나타냅니다.

결측 데이터 처리 및 범주형 변수 인코딩을 포함한 효과적인 데이터 전처리는 이러한 모델의 잠재력을 극대화하는 데 중요합니다. 또한, 특성 선택과 스케일링은 모델 성능과 해석 가능성을 향상시키는 데 중요한 역할을 합니다.

AdaBoost와 XGBoost를 숙달함으로써, 데이터 과학자와 머신러닝 실무자는 자신감과 정확성을 가지고 다양한 분류 과제를 해결할 수 있습니다.

추가 자료


    AdaBoost 문서
    XGBoost 문서
    Scikit-learn 사용자 가이드
    결정 영역 시각화를 위한 MLxtend




AdaBoost와 XGBoost에 대한 이해와 구현을 지속적으로 정교화함으로써, 머신러닝 혁신의 최전선에 서게 됩니다. 호기심을 유지하고, 계속 실험하며, 이 강력한 알고리즘의 잠재력을 최대한 활용하십시오.
특징	AdaBoost	XGBoost
주요 초점	잘못 분류된 사례의 가중치 조정	정규화를 포함한 그라디언트 부스팅
결측 데이터 처리	제한적	고급 처리 및 자동 방향 학습
병렬 처리	본질적으로 지원되지 않음	완전한 병렬 처리 지원
정규화	최소	광범위한 정규화 옵션
성능	좋음, 특히 단순한 데이터셋에서	우수함, 특히 복잡하고 큰 데이터셋에서
사용 용이성	간단한 구현	조정할 매개변수가 더 많아 더 깊은 이해 필요