S13L01 – AdaBoost와 XGBoost 회귀기

html
아다부스트 및 XGBoost 회귀 모델 종합 가이드: 보험 청구 예측 향상

목차

앙상블 기법 소개
아다부스트 이해하기
XGBoost 탐구
데이터셋 개요
데이터 전처리
아다부스트 회귀 모델 구축
XGBoost 회귀 모델 구성
모델 비교 및 평가
하이퍼파라미터 튜닝 및 최적화
결론




앙상블 기법 소개
앙상블 학습은 여러 모델, 종종 약한 학습기라고 불리는 모델들을 결합하여 더 강력한 예측 모델을 형성하는 머신러닝 패러다임입니다. 주요 목표는 개별 모델의 다양성과 집단적 지혜를 활용하여 예측의 전반적인 성능과 강인성을 향상시키는 것입니다. 앙상블 기법은 크게 배깅, 부스팅, 스태킹으로 분류됩니다.

배깅 (Bootstrap Aggregating): 여러 모델을 병렬로 구축하고 그들의 예측을 집계합니다. 랜덤 포레스트가 대표적인 예입니다.
부스팅: 모델을 순차적으로 구축하며, 각 새로운 모델은 이전 모델의 오류를 수정하려고 시도합니다. AdaBoost와 XGBoost가 이 범주에 속합니다.
스태킹: 다양한 유형의 모델을 결합하고 메타 모델을 사용하여 그들의 예측을 집계합니다.

이 가이드에서는 회귀 작업에서의 적용을 이해하기 위해 부스팅 기법, 특히 AdaBoost와 XGBoost에 중점을 둡니다.

아다부스트 이해하기
AdaBoost, Adaptive Boosting의 약자인 AdaBoost는 1997년 Yoav Freund와 Robert Schapire에 의해 소개된 선구적인 부스팅 알고리즘 중 하나입니다. AdaBoost는 일반적으로 결정 트리와 같은 여러 약한 학습기를 결합하여 가중 합을 형성하여 강력한 예측 모델을 만듭니다.

아다부스트 작동 방식

초기화: 모든 훈련 샘플에 동일한 가중치를 할당합니다.
반복 학습:

가중치가 부여된 데이터셋에서 약한 학습기를 훈련시킵니다.
성능을 평가하고 가중치를 조정합니다: 오분류된 샘플은 다음 반복에서 그 중요성을 강조하기 위해 더 높은 가중치를 받습니다.


집계: 약한 학습기들의 정확도에 비례하는 가중치를 할당하여 최종 모델을 결합합니다.


아다부스트의 장점

향상된 정확도: 이전 모델들의 실수를 집중적으로 보완함으로써, 아다부스트는 개별 모델보다 더 높은 정확도를 달성하는 경우가 많습니다.
유연성: 다양한 유형의 약한 학습기와 함께 사용할 수 있습니다.
과적합에 대한 저항성: 일반적으로 트리의 깊이가 제한될 때 과적합에 강한 저항성을 보입니다.


XGBoost 탐구
XGBoost는 Extreme Gradient Boosting의 약자입니다. Tianqi Chen이 개발한 XGBoost는 고도로 효율적이고 유연하며 휴대 가능한 최적화된 분산형 그래디언트 부스팅 라이브러리입니다. 뛰어난 성능과 확장성 덕분에 머신러닝 대회와 실제 응용 분야에서 큰 인기를 얻고 있습니다.

XGBoost의 주요 특징

정규화: 과적합을 방지하기 위해 L1 및 L2 정규화를 통합합니다.
병렬 처리: 병렬 컴퓨팅을 활용하여 훈련 과정을 가속화합니다.
트리 가지치기: 가지치기를 포함한 깊이 우선 접근 방식을 사용하여 트리 구조를 최적화합니다.
결측값 처리: 보간 없이 자동으로 결측 데이터를 처리합니다.
교차 검증: 훈련 중 교차 검증을 위한 내장 지원을 제공합니다.


XGBoost가 선호되는 이유
XGBoost는 다양한 데이터 유형을 견고하게 처리하고 복잡한 패턴을 포착하는 능력 덕분에 분류 및 회귀를 포함한 많은 예측 모델링 작업에서 다른 알고리즘을 지속적으로 능가했습니다.

데이터셋 개요
고려 중인 데이터셋은 보험 데이터셋으로 Kaggle에서 얻은 것입니다. 이 데이터셋에는 개인과 그들의 보험 청구에 대한 정보가 포함되어 있으며, 모델은 이를 예측하는 것을 목표로 합니다. 아래는 데이터셋의 스냅샷입니다:



Age
Sex
BMI
Children
Smoker
Region
Charges


19
female
27.9
0
yes
southwest
16884.92400


18
male
33.77
1
no
southeast
1725.55230


28
male
33.0
3
no
southeast
4449.46200


33
male
22.705
0
no
northwest
21984.47061


32
male
28.88
0
no
northwest
3866.85520



특징:

Age: 개인의 나이.
Sex: 개인의 성별.
BMI: 체질량 지수.
Children: 건강 보험에 가입된 자녀의 수.
Smoker: 흡연 상태.
Region: 미국 내 거주 지역.

타겟 변수:

Charges: 건강 보험에 의해 청구된 개인 의료 비용.


데이터 전처리
효과적인 데이터 전처리는 정확한 머신러닝 모델을 구축하는 데 필수적입니다. 다음 단계에서는 보험 데이터셋에 적용된 전처리 단계를 설명합니다.

1. 라이브러리 가져오기




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
			
				
					
				
					1
2
3
4
5
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
					
				
			
		



2. 데이터셋 로딩




		
		
			
			
Java
			
			data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
data.head()
			
				
					
				
					1
2
3
4
				
						data = pd.read_csv('S07_datasets_13720_18513_insurance.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
data.head()
					
				
			
		



3. 레이블 인코딩
'sex'와 'smoker'와 같은 범주형 변수는 머신러닝 알고리즘이 처리할 수 있도록 숫자 형식으로 인코딩됩니다.




		
		
			
			
Java
			
			from sklearn import preprocessing
le = preprocessing.LabelEncoder()
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
			
				
					
				
					1
2
3
4
				
						from sklearn import preprocessing
le = preprocessing.LabelEncoder()
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
					
				
			
		


인코딩된 특징:


Age
Sex
BMI
Children
Smoker
Region


19
0
27.9
0
1
southwest


18
1
33.77
1
0
southeast


...
...
...
...
...
...



4. 원-핫 인코딩
'region' 특징은 두 개 이상의 범주를 가진 범주형 변수로, 각 지역에 대한 이진 열을 생성하기 위해 원-핫 인코딩을 사용하여 변환됩니다.




		
		
			
			
Java
			
			from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
			
				
					
				
					1
2
3
4
5
				
						from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
 
columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
					
				
			
		



5. 훈련-테스트 분할
데이터셋을 훈련 세트와 테스트 세트로 분할하면 모델의 성능을 보지 못한 데이터에서 평가할 수 있습니다.




		
		
			
			
Java
			
			from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
2
3
				
						from sklearn.model_selection import train_test_split
 
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		



아다부스트 회귀 모델 구축
주요 초점은 XGBoost에 있지만, 비교 목적으로 AdaBoost의 구현을 이해하는 것이 중요합니다.




		
		
			
			
Java
			
			from sklearn.ensemble import AdaBoostRegressor

model = AdaBoostRegressor(random_state=0, n_estimators=100)
model.fit(X_train, y_train)
			
				
					
				
					1
2
3
4
				
						from sklearn.ensemble import AdaBoostRegressor
 
model = AdaBoostRegressor(random_state=0, n_estimators=100)
model.fit(X_train, y_train)
					
				
			
		



아다부스트 평가
훈련 후, 모델의 성능을 R² 점수를 사용하여 평가합니다.




		
		
			
			
Java
			
			from sklearn.metrics import r2_score

y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred)
print(f"AdaBoost R² Score: {r2}")
			
				
					
				
					1
2
3
4
5
				
						from sklearn.metrics import r2_score
 
y_pred = model.predict(X_test)
r2 = r2_score(y_test, y_pred)
print(f"AdaBoost R² Score: {r2}")
					
				
			
		


출력:

AdaBoost R² Score: 0.81
R² 점수는 아다부스트가 타겟 변수의 분산 중 81%를 설명함을 나타내며, 이는 주목할 만한 성능입니다.

XGBoost 회귀 모델 구성
XGBoost는 기존의 부스팅 방법에 비해 향상된 성능과 유연성을 제공합니다. 아래는 XGBoost 회귀 모델을 구축하고 평가하는 단계별 가이드입니다.

1. 설치 및 가져오기
우선, XGBoost 라이브러리가 설치되어 있는지 확인합니다.




		
		
			
			
Java
			
			# Install XGBoost
!pip install xgboost

# Import XGBoost
import xgboost as xgb
			
				
					
				
					1
2
3
4
5
				
						# Install XGBoost
!pip install xgboost
 
# Import XGBoost
import xgboost as xgb
					
				
			
		



2. 모델 초기화
특정 하이퍼파라미터로 XGBoost 회귀 모델을 정의합니다.




		
		
			
			
Java
			
			model = xgb.XGBRegressor(
    n_estimators=100,
    reg_lambda=1,
    gamma=0,
    max_depth=3,
    learning_rate=0.05
)
			
				
					
				
					1
2
3
4
5
6
7
				
						model = xgb.XGBRegressor(
    n_estimators=100,
    reg_lambda=1,
    gamma=0,
    max_depth=3,
    learning_rate=0.05
)
					
				
			
		



3. 모델 훈련
모델을 훈련 데이터에 맞춥니다.




		
		
			
			
Java
			
			model.fit(X_train, y_train)
			
				
					
				
					1
				
						model.fit(X_train, y_train)
					
				
			
		



4. 예측 수행
테스트 세트에서 보험 청구 비용을 예측합니다.




		
		
			
			
Java
			
			y_pred = model.predict(X_test)
			
				
					
				
					1
				
						y_pred = model.predict(X_test)
					
				
			
		



5. XGBoost 평가
R² 점수를 사용하여 모델의 성능을 평가합니다.




		
		
			
			
Java
			
			from sklearn.metrics import r2_score

r2 = r2_score(y_test, y_pred)
print(f"XGBoost R² Score: {r2}")
			
				
					
				
					1
2
3
4
				
						from sklearn.metrics import r2_score
 
r2 = r2_score(y_test, y_pred)
print(f"XGBoost R² Score: {r2}")
					
				
			
		


출력:

XGBoost R² Score: 0.88
0.88의 R² 점수는 XGBoost가 타겟 변수의 분산 중 88%를 설명함을 의미하며, 아다부스트 회귀 모델을 능가합니다.

모델 비교 및 평가
AdaBoost와 XGBoost를 비교하면 그들의 성능 역학에 대한 중요한 통찰을 얻을 수 있습니다.



모델
R² 점수


AdaBoost
0.81


XGBoost
0.88



XGBoost는 아다부스트보다 상당한 차이로 우수한 성능을 보이며, 데이터 내 복잡한 패턴과 상호작용을 포착하는 뛰어난 능력을 보여줍니다. 이러한 성능 향상은 XGBoost의 고급 정규화 기법과 최적화된 그래디언트 부스팅 프레임워크에 기인합니다.

하이퍼파라미터 튜닝 및 최적화
하이퍼파라미터 최적화는 머신러닝 모델의 성능을 극대화하는 데 중요합니다. 널리 사용되는 두 가지 기법은 Grid Search CV와 교차 검증입니다.

그리드 서치 교차 검증 (GridSearchCV)
GridSearchCV는 다양한 파라미터 조합을 체계적으로 탐색하며, 최적의 성능을 제공하는 파라미터를 찾기 위해 교차 검증을 수행합니다.




		
		
			
			
Java
			
			from sklearn.model_selection import GridSearchCV

# 파라미터 그리드 정의
param_grid = {
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [3, 5, 7],
    'n_estimators': [100, 200, 300]
}

# GridSearchCV 초기화
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, 
                           scoring='r2', cv=5, n_jobs=-1)

# GridSearchCV 실행
grid_search.fit(X_train, y_train)

# 최적 파라미터
best_params = grid_search.best_params_
print(f"Best Parameters: {best_params}")
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
				
						from sklearn.model_selection import GridSearchCV
 
# 파라미터 그리드 정의
param_grid = {
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [3, 5, 7],
    'n_estimators': [100, 200, 300]
}
 
# GridSearchCV 초기화
grid_search = GridSearchCV(estimator=model, param_grid=param_grid, 
                           scoring='r2', cv=5, n_jobs=-1)
 
# GridSearchCV 실행
grid_search.fit(X_train, y_train)
 
# 최적 파라미터
best_params = grid_search.best_params_
print(f"Best Parameters: {best_params}")
					
				
			
		



교차 검증
교차 검증은 모델의 평가가 특정 훈련-테스트 분할에 의존하지 않도록 보장합니다.




		
		
			
			
Java
			
			from sklearn.model_selection import cross_val_score

# 교차 검증 수행
cv_scores = cross_val_score(model, X, Y, cv=5, scoring='r2')

# 평균 교차 검증 점수
average_cv_score = np.mean(cv_scores)
print(f"Average Cross-Validation R² Score: {average_cv_score}")
			
				
					
				
					1
2
3
4
5
6
7
8
				
						from sklearn.model_selection import cross_val_score
 
# 교차 검증 수행
cv_scores = cross_val_score(model, X, Y, cv=5, scoring='r2')
 
# 평균 교차 검증 점수
average_cv_score = np.mean(cv_scores)
print(f"Average Cross-Validation R² Score: {average_cv_score}")
					
				
			
		


이러한 하이퍼파라미터를 최적화하면 R² 점수를 0.88 이상으로 향상시킬 수 있습니다.

결론
아다부스트와 XGBoost와 같은 앙상블 기법은 머신러닝 모델의 예측 능력을 향상시키는 데 중요한 역할을 합니다. 이 가이드를 통해 보험 데이터셋에서 이러한 회귀 모델의 구현과 평가를 시연했습니다. XGBoost는 이 맥락에서 우수한 모델로 떠올라, 아다부스트의 0.81과 비교하여 0.88의 R² 점수를 달성했습니다.

주요 시사점:

AdaBoost는 잘못 분류된 사례에 집중하여 모델 성능을 향상시키는 데 효과적입니다.
XGBoost는 고급 정규화, 병렬 처리 및 최적화된 그래디언트 부스팅 기법을 통해 향상된 성능을 제공합니다.
레이블 인코딩 및 원-핫 인코딩을 포함한 적절한 데이터 전처리는 모델 정확도에 필수적입니다.
GridSearchCV와 교차 검증을 통한 하이퍼파라미터 튜닝은 모델 성능을 크게 향상시킬 수 있습니다.

머신러닝이 계속 성장함에 따라, AdaBoost와 XGBoost와 같은 강력한 앙상블 방법을 이해하고 활용하는 것은 견고한 예측 모델을 구축하려는 데이터 과학자와 분석가들에게 매우 중요할 것입니다.

태그

앙상블 학습
AdaBoost
XGBoost
머신러닝
회귀 분석
보험 예측
데이터 전처리
하이퍼파라미터 튜닝
파이썬
Scikit-Learn


SEO 키워드

AdaBoost 회귀 모델
XGBoost 회귀 모델
앙상블 기법
머신러닝 모델
보험 청구 예측
R² 점수
데이터 전처리
하이퍼파라미터 튜닝
GridSearchCV
교차 검증
파이썬 머신러닝
예측 모델링
그래디언트 부스팅
레이블 인코딩
원-핫 인코딩


이미지 제안

AdaBoost 알고리즘의 순서도: AdaBoost가 반복적으로 잘못 분류된 샘플에 집중하는 방식을 시각적으로 표현.
XGBoost 아키텍처 다이어그램: XGBoost 모델의 구성 요소와 흐름을 보여줍니다.
데이터셋 스냅샷: 보험 데이터셋 특징의 표나 히트맵.
모델 성능 비교: AdaBoost와 XGBoost의 R² 점수를 비교하는 막대 차트.
하이퍼파라미터 튜닝 과정: GridSearchCV와 교차 검증을 설명하는 다이어그램.
앙상블 모델의 결정 트리: AdaBoost와 XGBoost에서 여러 트리가 함께 작동하는 방식을 보여주는 시각 자료.


추가 자료

Kaggle 보험 데이터셋
Scikit-Learn 문서
XGBoost 공식 문서
앙상블 학습 이해하기
GridSearchCV를 이용한 하이퍼파라미터 튜닝
머신러닝을 위한 교차 검증 기법


이 가이드에서 설명한 통찰력과 방법론을 활용함으로써, 아다부스트와 XGBoost 회귀 모델을 효과적으로 구현하고 최적화하여 보험 청구 예측과 같은 복잡한 예측 모델링 작업을 해결할 수 있습니다.
Age	Sex	BMI	Children	Smoker	Region	Charges
19	female	27.9	0	yes	southwest	16884.92400
18	male	33.77	1	no	southeast	1725.55230
28	male	33.0	3	no	southeast	4449.46200
33	male	22.705	0	no	northwest	21984.47061
32	male	28.88	0	no	northwest	3866.85520