회귀 분석에서 조정된 R-제곱 이해하기: 종합 가이드

R-제곱 소개

R-제곱 (R²)은 회귀 모델에서 종속 변수의 분산 중 독립 변수 또는 변수들에 의해 설명되는 비율을 나타내는 통계적 측정값입니다. 간단히 말해, 데이터가 회귀 모델에 얼마나 잘 맞는지를 나타냅니다.

R-제곱의 공식:

\[
R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}}
\]

Where:
- \( SS_{\text{res}} \) = 잔차 제곱합
- \( SS_{\text{tot}} \) = 전체 제곱합
\]

R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}}

Where:

- \( SS_{\text{res}} \) = 잔차 제곱합

- \( SS_{\text{tot}} \) = 전체 제곱합

R² 값이 1에 가까울수록 모델이 분산의 많은 부분을 설명함을 나타내며, 0에 가까울수록 그 반대를 의미합니다.

R-제곱의 한계

R-제곱은 유용한 지표이지만 몇 가지 한계가 있습니다:

과적합: 더 많은 예측 변수가 모델에 추가될수록 R²는 항상 증가합니다, 해당 예측 변수가 관련이 없더라도. 이는 모델이 훈련 데이터에는 잘 맞지만 보이지 않는 데이터에는 성능이 저하되는 과적합으로 이어질 수 있습니다.
인과 관계의 표시 없음: 높은 R²는 변수 간의 인과 관계를 의미하지 않습니다.
모델 복잡성 고려 안 함: R²는 모델의 예측 변수 수를 고려하지 않으므로 모델 평가를 오도할 수 있습니다.

이러한 한계를 해결하기 위해 조정된 R-제곱이 도입되었습니다.

조정된 R-제곱이란?

조정된 R-제곱 (Adjusted R²)은 데이터 포인트의 수에 비례하여 모델의 예측 변수 수를 포함시켜 R² 값을 수정합니다. 변수 추가를 조정하여, 특히 다중 회귀 시나리오에서 모델 성능에 대한 보다 정확한 측정을 제공합니다.

주요 특징:

불필요한 예측 변수의 추가에 패널티를 부과합니다.
추가된 예측 변수가 모델을 충분히 개선하지 못하면 감소할 수 있습니다.
모델 효율성에 대한 보다 균형 잡힌 시각을 제공합니다.

조정된 R-제곱의 공식

조정된 R-제곱의 수학적 표현은 다음과 같습니다:

\[
R' = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right)
\]

R' = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right)

Where: – \( R’ \) = 조정된 R-제곱 – \( R^2 \) = R-제곱 – \( n \) = 샘플 크기 – \( p \) = 예측 변수 수

대체 표현:

\[
R' = R^2 - \left( \frac{p (1 - R^2)}{n - p - 1} \right)
\]

R' = R^2 - \left( \frac{p (1 - R^2)}{n - p - 1} \right)

이 공식은 예측 변수 \( p \)가 증가함에 따라 조정된 R²가 어떻게 감소하는지를 강조하며, 특히 해당 예측 변수가 분산 설명에 크게 기여하지 않는 경우에 그렇습니다.

R-제곱에 패널티를 부과하는 이유

조정된 R² 공식에서 R-제곱에 패널티를 부과하는 주요 이유는 과적합을 방지하기 위함입니다. 회귀 모델에 더 많은 예측 변수가 추가될 때:

패널티 없이: R²는 새로운 예측 변수가 관련이 없더라도 반드시 증가합니다.
패널티 적용 시 (조정된 R²): 이 지표는 예측 변수 수를 고려하여, 모델에 유의미하게 기여하는 변수만이 조정된 R² 값을 향상시킬 수 있도록 합니다.

이 메커니즘은 모델이 데이터를 설명하는 데 효과적이면서도 가능한 한 단순하게 유지되도록 보장합니다.

조정된 R-제곱 계산: 단계별

예제를 통해 조정된 R-제곱의 계산 과정을 살펴보겠습니다.

R-제곱 (R²) 계산:
- 전체 제곱합 (\( SS_{\text{tot}} \))과 잔차 제곱합 (\( SS_{\text{res}} \))을 계산합니다.
- 공식을 사용합니다: \( R^2 = 1 – \frac{SS_{\text{res}}}{SS_{\text{tot}}} \).
샘플 크기 및 예측 변수 수 결정:
- \( n \) (관측 수)와 \( p \) (예측 변수 수)를 식별합니다.
조정된 R-제곱 공식 적용:
- 공식에 값을 대입합니다:
  
  Java
  
  \[ R' = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right) \]
  
  1
  2
  3
  
  \[
  R' = 1 - \left( \frac{(1 - R^2)(n - 1)}{n - p - 1} \right)
  \]

실제 예제

시나리오:

여러 특성을 기반으로 주택 가격을 예측하기 위해 선형 회귀 모델을 구축한다고 가정해봅시다. 모델을 적합시킨 후 다음과 같은 값을 얻었습니다:

R-제곱 (R²): 0.85
관측 수 (n): 100
예측 변수 수 (p): 5

계산:

\[
R' = 1 - \left( \frac{(1 - 0.85)(100 - 1)}{100 - 5 - 1} \right) = 1 - \left( \frac{0.15 \times 99}{94} \right) = 1 - \left( \frac{14.85}{94} \right) \approx 1 - 0.158 \approx 0.842
\]

R' = 1 - \left( \frac{(1 - 0.85)(100 - 1)}{100 - 5 - 1} \right) = 1 - \left( \frac{0.15 \times 99}{94} \right) = 1 - \left( \frac{14.85}{94} \right) \approx 1 - 0.158 \approx 0.842

해석:

약 0.842의 조정된 R² 값은 예측 변수 수를 고려한 후 모델이 주택 가격 변동의 84.2%를 설명함을 나타냅니다. 이는 원래의 R² 값에서의 약간의 감소로, 모델 복잡성에 대한 조정을 의미합니다.

조정된 R-제곱 vs. R-제곱

특징	R-제곱 (R²)	조정된 R-제곱 (R’)
예측 변수 고려 여부	아니오	예
예측 변수 추가에 대한 민감도	항상 증가하거나 동일하게 유지됨	예측 변수의 중요성에 따라 증가하거나 감소할 수 있음
사용 경우	동일한 예측 변수 수를 가진 모델 비교에 최적	예측 변수 수가 다른 모델 비교에 최적
복잡성에 대한 패널티	없음	불필요한 복잡성을 방지하기 위해 패널티 적용

핵심 요점: R²는 모델 적합도의 기본적인 측정을 제공하지만, 조정된 R²는 예측 변수의 수를 고려하여 보다 세밀한 평가를 제공함으로써 모델 선택 및 비교에 매우 유용합니다.

조정된 R-제곱을 사용해야 할 때

조정된 R-제곱은 다음과 같은 상황에서 특히 유용합니다:

다중 회귀 모델: 여러 예측 변수를 다룰 때, 조정된 R²는 모델의 실제 설명력을 평가하는 데 도움을 줍니다.
모델 비교: 예측 변수 수가 다른 모델 간의 공정한 비교를 가능하게 합니다.
과적합 방지: 지나치게 복잡한 모델에 패널티를 부과하여, 보이지 않는 데이터에 더 잘 일반화되는 단순한 모델을 선택하는 데 도움을 줍니다.

결론

회귀 지표의 미묘한 차이를 이해하는 것은 강력하고 신뢰할 수 있는 통계 모델을 구축하는 데 중요합니다. R-제곱은 모델 적합도를 평가하는 기초를 제공하지만, 조정된 R-제곱은 예측 변수의 수를 고려하여 이 평가를 향상시켜 모델의 설명력을 보다 정확하게 측정합니다. 조정된 R²을 모델 평가 도구에 통합함으로써, 보다 정보에 기반한 결정을 내릴 수 있으며, 회귀 모델이 효과적이고 효율적으로 유지되도록 보장할 수 있습니다.

추가 읽기

참고문헌:

“S15L02 – Adjusted R-Square.pptx”의 전사 및 보조 자료

S15L02 – 조정된 R-제곱