S08L02 – 다중 특성 데이터셋에서의 다항 회귀

html
다중 특성을 활용한 다항 회귀 마스터하기: 종합 가이드
머신 러닝 분야에서 회귀 분석은 연속된 결과를 예측하기 위한 기본 도구로 사용됩니다. 다양한 회귀 기법 중에서 다항 회귀는 복잡하고 비선형적인 관계를 모델링할 수 있는 능력으로 돋보입니다. 이 종합 가이드는 동영상 전사, 파워포인트 프레젠테이션 및 주피터 노트북의 통찰을 활용하여 다중 특성을 가진 다항 회귀에 대해 깊이 있게 탐구하고, 철저한 이해와 실용적인 구현을 제공합니다.
목차

  회귀 모델 소개
  선형 회귀 vs 다중 선형 회귀
  다항 회귀란?
  왜 다항 회귀를 선택해야 하는가?
  
    다항 회귀를 위한 전처리 단계
    
      1. 데이터 가져오기
      2. 결측 데이터 처리
      3. 특성 선택 및 인코딩
      4. 특성 스케일링
    
  
  다항 회귀 모델 구축
  적절한 차수 선택: 편향과 분산의 균형
  
    파이썬에서의 실용적 구현
    
      주피터 노트북을 사용한 단계별 가이드
    
  
  모델 평가
  다항 회귀에서의 과적합 방지
  결론


회귀 모델 소개
회귀 분석은 변수들 간의 관계를 추정하는 데 사용되는 통계적 방법입니다. 이는 종속 변수를 하나 이상의 독립 변수를 기반으로 예측할 수 있게 해주는 예측 모델링에서 중요한 역할을 합니다. 가장 일반적인 유형은 다음과 같습니다:

  선형 회귀
  다중 선형 회귀
  다항 회귀

각각의 미묘한 차이를 이해하는 것은 예측 모델의 정확성과 효과성을 크게 향상시킬 수 있습니다.
선형 회귀 vs 다중 선형 회귀
다항 회귀로 넘어가기 전에, 선형 회귀와 다중 선형 회귀를 구분하는 것이 중요합니다:

  
    선형 회귀: 단일 독립 변수와 종속 변수 간의 관계를 선형 방정식을 적합시켜 모델링합니다.
    방정식:
    \[ Y = B_0 + B_1X_1 \]
  
  
    다중 선형 회귀: 선형 회귀를 확장하여 여러 독립 변수와 종속 변수 간의 관계를 모델링합니다.
    방정식:
    \[ Y = B_0 + B_1X_1 + B_2X_2 + B_3X_3 + \ldots + B_nX_n \]
  

두 가지 모두 강력하지만, 선형 관계 모델링에만 제한됩니다.
다항 회귀란?
다항 회귀는 선형 및 다중 선형 회귀의 확장으로, 종속 변수와 독립 변수 간의 관계를 \( n \)차 다항식으로 모델링합니다.
방정식:
\[ Y = B_0 + B_1X + B_2X^2 + B_3X^3 + \ldots + B_nX^n \]
이름과는 달리, 다항 회귀는 계수 \( B_i \)가 선형이기 때문에 선형 회귀의 한 유형입니다.
왜 다항 회귀를 선택해야 하는가?
현실 세계의 데이터는 종종 비선형적인 관계를 나타냅니다. 다항 회귀는 다항 항을 도입함으로써 이러한 복잡성을 포착할 수 있는 유연성을 제공하여 모델이 데이터의 곡률을 적합시킬 수 있게 합니다.
장점:

  비선형 관계를 포착합니다.
  복잡한 데이터 추세에 더 나은 적합을 제공합니다.
  선형 모델이 부족할 때 모델 성능을 향상시킵니다.


다항 회귀를 위한 전처리 단계
효과적인 전처리는 강력한 회귀 모델의 기초를 다집니다. 다음은 필수 단계입니다:
1. 데이터 가져오기
데이터셋을 가져오는 것으로 시작합니다. 예시로 Kaggle에서 보험 데이터셋을 사용하겠습니다.




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

data = pd.read_csv('insurance.csv')
			
				
					
				
					1
2
3
4
5
6
7
				
						import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
 
data = pd.read_csv('insurance.csv')
					
				
			
		


2. 결측 데이터 처리
데이터셋에 결측 값이 없는지 확인하세요. 다항 회귀는 결측 데이터를 본질적으로 처리하지 않습니다.




		
		
			
			
Java
			
			data.isnull().sum()
# Handle missing values if any
			
				
					
				
					1
2
				
						data.isnull().sum()
# Handle missing values if any
					
				
			
		


참고: 연속적인 값을 예측하는 회귀 문제에서는 카테고리 불균형이 없기 때문에 불균형 데이터 처리가 필요하지 않습니다.
3. 특성 선택 및 인코딩
관련 특성을 식별하고 범주형 변수를 인코딩합니다.
레이블 인코딩:
범주형 레이블을 숫자 형태로 변환합니다.




		
		
			
			
Java
			
			from sklearn import preprocessing
le = preprocessing.LabelEncoder()

X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
			
				
					
				
					1
2
3
4
5
				
						from sklearn import preprocessing
le = preprocessing.LabelEncoder()
 
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
					
				
			
		


원-핫 인코딩:
범주형 변수를 ML 알고리즘에 제공할 수 있는 형태로 변환하여 예측 성능을 향상시킵니다.




		
		
			
			
Java
			
			from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
			
				
					
				
					1
2
3
4
5
				
						from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
 
columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
					
				
			
		


4. 특성 스케일링
다항 특성은 큰 크기로 이어질 수 있어 계산 문제를 야기하고 모델 성능에 영향을 줄 수 있습니다. 스케일링은 특성이 균등하게 기여하도록 보장합니다.




		
		
			
			
Java
			
			from sklearn import preprocessing

sc = preprocessing.StandardScaler()
sc.fit(X_train)
X_train = sc.transform(X_train)
X_test = sc.transform(X_test)
			
				
					
				
					1
2
3
4
5
6
				
						from sklearn import preprocessing
 
sc = preprocessing.StandardScaler()
sc.fit(X_train)
X_train = sc.transform(X_train)
X_test = sc.transform(X_test)
					
				
			
		



다항 회귀 모델 구축
전처리가 완료되면, 모델 구축은 다음 단계들을 포함합니다:

  데이터셋 분할: 데이터를 훈련 세트와 테스트 세트로 나눕니다.
  특성 변환: 다항 특성을 생성합니다.
  모델 훈련: 변환된 특성에 회귀 모델을 적합시킵니다.
  예측 수행: 훈련된 모델을 사용하여 예측합니다.
  성능 평가: 모델의 정확성을 평가합니다.


적절한 차수 선택: 편향과 분산의 균형
다항식의 차수는 모델의 유연성을 결정합니다:

  저차(예: 2차): 과소적합될 수 있으며, 데이터의 복잡성을 포착하지 못할 수 있습니다.
  고차: 과적합될 수 있으며, 기본 패턴 대신 노이즈를 모델링할 수 있습니다.

적절한 차수를 선택하는 것은 편향(과도하게 단순화된 모델로 인한 오류)과 분산(과도하게 복잡한 모델로 인한 오류)의 균형을 유지하는 데 매우 중요합니다.

파이썬에서의 실용적 구현
주피터 노트북을 사용한 단계별 구현을 살펴보겠습니다.
주피터 노트북을 사용한 단계별 가이드
1. 라이브러리 및 데이터셋 가져오기




		
		
			
			
Java
			
			import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

# Importing the dataset
data = pd.read_csv('insurance.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
			
				
					
				
					1
2
3
4
5
6
7
8
9
10
11
12
13
14
				
						import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.metrics import r2_score
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()
 
# Importing the dataset
data = pd.read_csv('insurance.csv')
X = data.iloc[:, :-1]
Y = data.iloc[:, -1]
					
				
			
		


2. 레이블 인코딩




		
		
			
			
Java
			
			from sklearn import preprocessing
le = preprocessing.LabelEncoder()

X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
			
				
					
				
					1
2
3
4
5
				
						from sklearn import preprocessing
le = preprocessing.LabelEncoder()
 
X['sex'] = le.fit_transform(X['sex'])
X['smoker'] = le.fit_transform(X['smoker'])
					
				
			
		


3. 원-핫 인코딩




		
		
			
			
Java
			
			from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer

columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
			
				
					
				
					1
2
3
4
5
				
						from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
 
columnTransformer = ColumnTransformer([('encoder', OneHotEncoder(), [5])], remainder='passthrough')
X = columnTransformer.fit_transform(X)
					
				
			
		


4. 데이터셋 분할




		
		
			
			
Java
			
			X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
			
				
					
				
					1
				
						X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.20, random_state=1)
					
				
			
		


5. 특성 스케일링




		
		
			
			
Java
			
			from sklearn import preprocessing

sc = preprocessing.StandardScaler()
sc.fit(X_train)
X_train = sc.transform(X_train)
X_test = sc.transform(X_test)
			
				
					
				
					1
2
3
4
5
6
				
						from sklearn import preprocessing
 
sc = preprocessing.StandardScaler()
sc.fit(X_train)
X_train = sc.transform(X_train)
X_test = sc.transform(X_test)
					
				
			
		


6. 다항 회귀 모델 구축




		
		
			
			
Java
			
			from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures

model = LinearRegression()
poly = PolynomialFeatures(degree=2)  # You can experiment with different degrees

X_train_poly = poly.fit_transform(X_train)
model.fit(X_train_poly, y_train)
			
				
					
				
					1
2
3
4
5
6
7
8
				
						from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
 
model = LinearRegression()
poly = PolynomialFeatures(degree=2)  # You can experiment with different degrees
 
X_train_poly = poly.fit_transform(X_train)
model.fit(X_train_poly, y_train)
					
				
			
		


7. 예측 수행




		
		
			
			
Java
			
			X_test_poly = poly.fit_transform(X_test)
y_pred = model.predict(X_test_poly)
			
				
					
				
					1
2
				
						X_test_poly = poly.fit_transform(X_test)
y_pred = model.predict(X_test_poly)
					
				
			
		


8. 모델 평가




		
		
			
			
Java
			
			# Creating a comparison DataFrame
comparison = pd.DataFrame()
comparison['Actual'] = y_test
comparison['Predicted'] = y_pred

# Displaying R² Score
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")  # Output: R² Score: 0.86
			
				
					
				
					1
2
3
4
5
6
7
8
				
						# Creating a comparison DataFrame
comparison = pd.DataFrame()
comparison['Actual'] = y_test
comparison['Predicted'] = y_pred
 
# Displaying R² Score
r2 = r2_score(y_test, y_pred)
print(f"R² Score: {r2:.2f}")  # Output: R² Score: 0.86
					
				
			
		


해석: R² 점수 0.86은 종속 변수의 분산 중 약 86%가 독립 변수에 의해 예측 가능함을 나타냅니다.

모델 평가
회귀 모델을 평가하는 것은 주로 타깃 변수를 얼마나 잘 예측하는지를 평가하는 것을 포함합니다. 일반적인 메트릭은 다음과 같습니다:

  R² 점수: 종속 변수의 분산 중 독립 변수에 의해 설명되는 비율을 나타냅니다.
  평균 제곱 오차(MSE): 오류의 제곱 평균을 측정합니다.

우리의 구현에서는 다항 특성을 도입한 후 R² 점수가 0.76에서 0.86으로 개선되어 모델 성능이 향상되었음을 보여줍니다.

다항 회귀에서의 과적합 방지
다항 특성의 차수를 높이면 모델의 적합도가 향상될 수 있지만, 동시에 과적합의 위험도 증가합니다. 과적합은 모델이 기본 패턴 대신 노이즈를 포착하는 경우를 말합니다. 과적합을 완화하기 위해:

  교차 검증: k-겹 교차 검증과 같은 기법을 사용하여 모델의 일반화 가능성을 보장합니다.
  정규화: 정규화 방법(예: 릿지, 라쏘)을 구현하여 큰 계수를 페널티합니다.
  특성 선택: 가장 관련성이 높은 특성으로 특성 수를 제한합니다.

다항 특성의 차수를 균형 있게 선택하는 것은 정확하면서도 일반화 가능한 모델을 유지하는 데 필수적입니다.

결론
다중 특성을 가진 다항 회귀는 선형 모델의 강력한 확장으로, 데이터의 복잡하고 비선형적인 관계를 포착할 수 있습니다. 데이터를 세심하게 전처리하고, 적절한 다항 차수를 선택하며, 모델의 성능을 평가함으로써 다항 회귀의 전체 잠재력을 활용할 수 있습니다.
보험 요금, 주택 가격 또는 기타 연속적인 결과를 예측하든, 다항 회귀를 마스터하는 것은 머신 러닝 도구에 있어 다재다능한 도구를 갖추는 것을 의미합니다.
핵심 요점:

  다항 회귀는 선형 모델을 확장하여 비선형 패턴을 포착합니다.
  인코딩 및 스케일링을 포함한 적절한 전처리가 중요합니다.
  적절한 차수 선택은 모델의 정확성을 균형 있게 유지하고 과적합을 방지합니다.
  R²과 같은 평가 메트릭은 모델 성능에 대한 통찰을 제공합니다.

다항 회귀를 활용하여 예측 모델링 노력을 향상시키고 데이터로부터 더 깊은 통찰을 얻으세요.