S08L01 – 다항 회귀

html
다항 회귀 마스터하기: 포괄적인 가이드

목차

회귀 소개
선형 회귀 이해하기
선형 회귀의 한계
다항 회귀란?
다항 회귀 대 선형 회귀
파이썬에서 다항 회귀 구현하기
모델 평가
과적합 방지
결론




회귀 소개
회귀 분석은 통계학과 머신러닝에서 핵심적인 기법으로, 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하고 분석하는 데 사용됩니다. 주요 목표는 독립 변수들의 값을 기반으로 종속 변수의 값을 예측하는 것입니다.
회귀 기술에는 데이터와 관계 유형에 맞게 다양한 종류가 있습니다. 두 가지 주요 형태는 선형 회귀와 다항 회귀입니다. 선형 회귀는 직선 관계를 모델링하는 반면, 다항 회귀는 보다 복잡하고 비선형적인 관계를 모델링할 수 있습니다.

선형 회귀 이해하기
선형 회귀는 가장 단순한 형태의 회귀 분석입니다. 이는 종속 변수 \( Y \)와 단일 독립 변수 \( X \) 간의 선형 관계를 가정합니다. 수학적 표현은 다음과 같습니다:




		
		
			
			
Java
			
			$$
Y = B_0 + B_1X_1
$$
			
				
					
				
					1
2
3
				
						$$
Y = B_0 + B_1X_1
$$
					
				
			
		



\( B_0 \): 절편 항 (상수)
\( B_1 \): 독립 변수 \( X_1 \)의 계수

시각화:

\( X \) (독립 변수) 대 \( Y \) (종속 변수)의 산점도에서, 선형 회귀는 두 변수 간의 관계를 가장 잘 나타내는 직선을 적합시킵니다.

선형 회귀의 한계
선형 회귀는 단순하고 계산적으로 효율적이지만, 몇 가지 한계가 있습니다:

선형성 가정: 변수들 간의 관계가 선형이라고 가정합니다. 이는 실제 데이터에서는 종종 그렇지 않습니다.
단일 변수의 한계: 표준 선형 회귀는 일반적으로 하나의 독립 변수만 다루기 때문에, 여러 특성을 가진 데이터셋에 대해서는 덜 효과적입니다.
다차원 데이터 처리: 차원이 증가함에 따라 모델을 시각화하고 해석하는 것이 어려워집니다.

이러한 한계는 다항 회귀와 같은 보다 유연한 모델링 기법이 복잡한 데이터 패턴을 포착하는 데 필요함을 시사합니다.

다항 회귀란?
다항 회귀는 종속 변수 \( Y \)와 독립 변수 \( X \) 간의 관계를 \( n \)차 다항식으로 모델링하는 선형 회귀의 확장입니다. 단일 변수에 대한 일반적인 형태는 다음과 같습니다:




		
		
			
			
Java
			
			$$
Y = B_0 + B_1X_1 + B_2X_1^2 + \cdots + B_nX_1^n
$$
			
				
					
				
					1
2
3
				
						$$
Y = B_0 + B_1X_1 + B_2X_1^2 + \cdots + B_nX_1^n
$$
					
				
			
		



\( n \): 다항식의 차수 (하이퍼파라미터)
높은 차수는 모델이 더 복잡한 곡선을 적합할 수 있게 합니다

예제 방정식:




		
		
			
			
Java
			
			$$
Y = B_0 + B_1X + B_2X^2 + B_3X^3
$$
			
				
					
				
					1
2
3
				
						$$
Y = B_0 + B_1X + B_2X^2 + B_3X^3
$$
					
				
			
		


이 방정식은 직선 대신 포물선 형태의 곡선(\( n = 2 \)인 경우)을 생성하여, 모델이 데이터의 비선형 관계를 포착할 수 있게 합니다.

다항 회귀 대 선형 회귀


측면
선형 회귀
다항 회귀


모델링된 관계
직선
곡선 (포물선 또는 고차)


복잡성
단순함
고차항으로 인해 더 복잡함


유연성
선형 관계에 제한됨
비선형 관계를 모델링할 수 있음


시각화
2D에서 쉽게 시각화 가능
차원이 높아짐에 따라 시각화가 복잡해짐


과적합 위험
낮음
높음, 특히 고차 다항식일 경우


왜 다항 회귀를 선택해야 하나요?
데이터가 선형 회귀로는 효과적으로 포착할 수 없는 비선형적인 추세를 보일 때, 다항 회귀는 곡률을 모델링하는 수단을 제공하여 더 나은 예측 성능을 이끌어냅니다.

파이썬에서 다항 회귀 구현하기
파이썬의 Jupyter Notebook을 사용하여 다양한 연도에 걸친 캐나다의 1인당 소득 데이터를 기반으로 다항 회귀를 구현하는 실용적인 예제를 살펴보겠습니다.

1단계: 라이브러리 불러오기




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score

sns.set()
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score
 
sns.set()
					
				
			
		



2단계: 데이터셋 불러오기




		
		
			
			
Java
			
			# 데이터셋 출처: <a href="https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set">https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set</a>
data = pd.read_csv('canada_per_capita_income.csv')
X = data.iloc[:, :-1]  # 독립 변수 (연도)
Y = data.iloc[:, -1]   # 종속 변수 (1인당 소득)
			
				
					
				
					1
2
3
4
				
						# 데이터셋 출처: <a href="https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set">https://www.kaggle.com/gurdit559/canada-per-capita-income-single-variable-data-set</a>
data = pd.read_csv('canada_per_capita_income.csv')
X = data.iloc[:, :-1]  # 독립 변수 (연도)
Y = data.iloc[:, -1]   # 종속 변수 (1인당 소득)
					
				
			
		



3단계: 데이터 시각화




		
		
			
			
Java
			
			sns.scatterplot(data=data, x='year', y='per capita income (US$)')
plt.xlabel('연도')
plt.ylabel('1인당 소득 (US$)')
plt.title('Canada Per Capita Income Over Years')
plt.show()
			
				
					
				
					1
2
3
4
5
				
						sns.scatterplot(data=data, x='year', y='per capita income (US$)')
plt.xlabel('연도')
plt.ylabel('1인당 소득 (US$)')
plt.title('Canada Per Capita Income Over Years')
plt.show()
					
				
			
		


참고: 더 나은 시각화를 위해 sns.scatterplot의 URL을 실제 플롯으로 교체하세요.

4단계: 데이터셋 분할




		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		



5단계: 선형 회귀 모델 구축




		
		
			
			
Java
			
			linear_model = LinearRegression()
linear_model.fit(X_train, y_train)
			
				
					
				
					1
2
				
						linear_model = LinearRegression()
linear_model.fit(X_train, y_train)
					
				
			
		



6단계: 선형 모델을 사용하여 예측하기




		
		
			
			
Java
			
			y_pred_linear = linear_model.predict(X_test)
			
				
					
				
					1
				
						y_pred_linear = linear_model.predict(X_test)
					
				
			
		



7단계: 선형 모델 평가




		
		
			
			
Java
			
			r2_linear = r2_score(y_test, y_pred_linear)
print(f'선형 회귀의 R2 점수: {r2_linear}')
			
				
					
				
					1
2
				
						r2_linear = r2_score(y_test, y_pred_linear)
print(f'선형 회귀의 R2 점수: {r2_linear}')
					
				
			
		


출력:




		
		
			
			
Java
			
			R2 Score for Linear Regression: 0.80
			
				
					
				
					1
				
						R2 Score for Linear Regression: 0.80
					
				
			
		



8단계: 다항 회귀 구현




		
		
			
			
Java
			
			# 데이터에 다항 항을 포함하도록 변환
poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

# 다항 회귀 모델 구축
poly_model = LinearRegression()
poly_model.fit(X_train_poly, y_train)

# 예측 수행
y_pred_poly = poly_model.predict(X_test_poly)
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
				
						# 데이터에 다항 항을 포함하도록 변환
poly = PolynomialFeatures(degree=2)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)
 
# 다항 회귀 모델 구축
poly_model = LinearRegression()
poly_model.fit(X_train_poly, y_train)
 
# 예측 수행
y_pred_poly = poly_model.predict(X_test_poly)
					
				
			
		



9단계: 다항 모델 평가




		
		
			
			
Java
			
			r2_poly = r2_score(y_test, y_pred_poly)
print(f'다항 회귀의 R2 점수: {r2_poly}')
			
				
					
				
					1
2
				
						r2_poly = r2_score(y_test, y_pred_poly)
print(f'다항 회귀의 R2 점수: {r2_poly}')
					
				
			
		


출력:




		
		
			
			
Java
			
			R2 Score for Polynomial Regression: 0.86
			
				
					
				
					1
				
						R2 Score for Polynomial Regression: 0.86
					
				
			
		



10단계: 실제값과 예측값 비교




		
		
			
			
Java
			
			comparison = pd.DataFrame({
    '실제값': y_test,
    '예측값': y_pred_poly
})
print(comparison)
			
				
					
				
					1
2
3
4
5
				
						comparison = pd.DataFrame({
    '실제값': y_test,
    '예측값': y_pred_poly
})
print(comparison)
					
				
			
		


샘플 출력:


#
실제값
예측값


24
15755.82
17658.03


22
16412.08
15942.22


39
32755.18
34259.97


...
...
...



11단계: 다항 적합 시각화




		
		
			
			
Java
			
			plt.scatter(X, Y, color='blue', label='실제 데이터')
plt.plot(X, poly_model.predict(poly.fit_transform(X)), color='red', label='다항 적합')
plt.xlabel('연도')
plt.ylabel('1인당 소득 (US$)')
plt.title('다항 회귀 적합')
plt.legend()
plt.show()
			
				
					
				
					1
2
3
4
5
6
7
				
						plt.scatter(X, Y, color='blue', label='실제 데이터')
plt.plot(X, poly_model.predict(poly.fit_transform(X)), color='red', label='다항 적합')
plt.xlabel('연도')
plt.ylabel('1인당 소득 (US$)')
plt.title('다항 회귀 적합')
plt.legend()
plt.show()
					
				
			
		


참고: 빨간색 곡선은 다항 회귀 적합을 나타내며, 선형 적합에 비해 데이터와의 더 나은 정렬을 보여줍니다.

모델 평가
R² 점수는 회귀 모델을 평가하는 주요 지표입니다. 이는 독립 변수로부터 예측 가능한 종속 변수의 분산 비율을 나타냅니다.

선형 회귀 R²: 0.80
다항 회귀 R²: 0.86

다항 모델의 더 높은 R² 점수는 데이터에 더 잘 적합함을 나타내며, 선형 모델보다 기본적인 추세를 더 효과적으로 포착합니다.

과적합 방지
다항식의 차수를 늘리면 모델이 훈련 데이터를 더 잘 맞출 수 있는 능력이 향상되지만, 과적합의 위험도 증가합니다. 과적합은 모델이 훈련 데이터의 노이즈를 포착하여, 보지 않은 데이터에 대해서는 일반화 성능이 낮아질 때 발생합니다.
과적합을 방지하는 전략:

교차 검증: k-겹 교차 검증과 같은 기법을 사용하여 모델이 데이터의 다양한 하위 집합에서 잘 작동하는지 확인합니다.
정규화: 과도한 복잡성을 벌점화하기 위해 정규화 방법(예: Ridge 또는 Lasso 회귀)을 구현합니다.
적절한 차수 선택: 다항식의 차수를 신중하게 선택합니다. 높은 차수는 유연성을 증가시키지만 과적합을 초래할 수 있습니다. 낮은 차수에서 시작하여 성능 지표를 모니터링하면서 점진적으로 증가시킵니다.


결론
다항 회귀는 비선형 관계를 모델링하기 위한 강력한 방법을 제공하며, 선형 회귀의 기능을 확장합니다. 다항 항을 도입함으로써 데이터의 곡률을 포착하여 예측 성능을 향상시킵니다. 그러나 과적합을 방지하기 위해 모델의 복잡성을 균형 있게 유지하는 것이 필수적입니다. 신중한 구현과 평가를 통해, 다항 회귀는 데이터 과학 도구 상자에서 귀중한 도구가 될 수 있습니다.
주요 요점:

다항 회귀는 다항 항을 도입함으로써 비선형 관계를 모델링합니다.
비선형 데이터에 대해 선형 회귀보다 더 나은 적합을 제공합니다.
다항식의 차수는 모델 성능에 영향을 주는 중요한 하이퍼파라미터입니다.
적절한 차수를 선택하고 검증 기법을 사용하여 과적합을 주의하세요.

프로젝트에 다항 회귀를 통합하여 데이터 모델링 여정을 시작하고 데이터에서 더 깊은 통찰을 얻으세요!

추가 읽기 자료

머신러닝에서 과적합 이해하기
초보자를 위한 선형 회귀 가이드
고급 다항 회귀 기법


참고 문헌

Kaggle 데이터셋: 캐나다 1인당 소득
Scikit-Learn 문서


태그

데이터 과학
머신러닝
회귀 분석
다항 회귀
선형 회귀
파이썬
주피터 노트북


자주 묻는 질문

Q1: 선형 회귀보다 다항 회귀를 언제 사용해야 하나요?
A1: 독립 변수와 종속 변수 간의 관계가 비선형일 때 다항 회귀를 사용하세요. 이는 데이터의 곡률을 포착하는 데 도움이 되어 더 나은 예측 성능을 제공합니다.

Q2: 다항 회귀의 적절한 차수를 어떻게 선택하나요?
A2: 낮은 차수에서 시작하여 검증 데이터에서 모델의 성능을 모니터링하면서 점진적으로 차수를 증가시키세요. 교차 검증과 같은 도구는 적합과 일반화를 균형 있게 하는 최적의 차수를 선택하는 데 도움이 될 수 있습니다.

Q3: 다항 회귀는 여러 특성을 처리할 수 있나요?
A3: 네, 다항 회귀는 특성들의 다항 조합을 생성함으로써 여러 특성으로 확장할 수 있어, 모델이 그들 간의 상호 작용을 포착할 수 있게 합니다.

오늘 다항 회귀를 시작하세요!
다항 회귀를 실험함으로써 데이터 모델링 기술을 향상시키세요. 제공된 Jupyter Notebook 예제를 활용하여 자체 모델을 구현하고, 다양한 다항 차수가 데이터에 미치는 영향을 관찰하세요. 즐거운 모델링 되세요!

저자 소개
데이터 과학과 머신러닝에 폭넓은 경험을 가진 전문 기술 작가로서, 저는 전문가와 열정적인 이들이 데이터 기반 통찰의 잠재력을 최대한 활용할 수 있도록 명확하고 포괄적인 가이드를 제공하기 위해 노력하고 있습니다.

연락처
데이터 과학과 머신러닝에 대한 더 많은 통찰과 튜토리얼을 원하신다면, email@example.com으로 언제든지 연락 주세요.

면책 조항
이 기사는 교육 목적으로 작성되었습니다. 정확성을 확보하기 위해 모든 노력을 다하지만, 항상 특정 사용 사례 내에서 모델과 결과를 검증하시기 바랍니다.

결론
다항 회귀는 데이터 과학자의 도구 상자에서 필수적인 도구로, 복잡한 관계를 정교하게 모델링할 수 있게 합니다. 그 메커니즘, 장점 및 잠재적 함정을 이해함으로써, 더 깊은 통찰을 추출하고 더 정확한 예측 모델을 구축하는 데 이를 활용할 수 있습니다.

키워드
다항 회귀, 선형 회귀, 머신러닝, 데이터 과학, 파이썬, 주피터 노트북, R² 점수, 과적합, 하이퍼파라미터, 회귀 분석, 예측 모델링, Scikit-Learn, 데이터 시각화

행동 촉구
회귀 모델을 높일 준비가 되셨나요? 저희의 포괄적인 가이드와 함께 다항 회귀에 뛰어들고 오늘부터 복잡한 데이터 관계를 모델링해 보세요!
측면	선형 회귀	다항 회귀
모델링된 관계	직선	곡선 (포물선 또는 고차)
복잡성	단순함	고차항으로 인해 더 복잡함
유연성	선형 관계에 제한됨	비선형 관계를 모델링할 수 있음
시각화	2D에서 쉽게 시각화 가능	차원이 높아짐에 따라 시각화가 복잡해짐
과적합 위험	낮음	높음, 특히 고차 다항식일 경우
#	실제값	예측값
24	15755.82	17658.03
22	16412.08	15942.22
39	32755.18	34259.97
...	...	...