S18L03 – 상관관계

html
상관관계 이해하기: 정의, 중요성 및 계산

목차

  상관관계란 무엇인가?
    
      공분산 대 상관관계
    
  
  피어슨 상관계수
    
      피어슨 상관계수의 속성
      피어슨 상관관계 계산
      예제: 와인의 잔류 당과 품질
    
  
  상관관계가 중요한 이유
  상관관계 계산을 위한 도구 및 라이브러리
  상관관계 결과 해석
  결론


상관관계란 무엇인가?

상관관계는 두 변수 간의 선형 관계의 강도와 방향을 측정합니다. 변수의 스케일에 의해 영향을 받을 수 있는 원시 데이터 측정과 달리, 상관관계는 변수들이 서로 어떻게 움직이는지를 평가하는 표준화된 방법을 제공합니다.

공분산 대 상관관계

상관관계를 더 깊이 이해하기 전에, 그 전신인 공분산을 이해하는 것이 중요합니다. 공분산은 변수들 간의 선형 관계의 방향을 나타냅니다. 그러나 다음과 같은 중요한 한계가 있습니다:


  스케일 민감성: 공분산 값은 변수의 단위에 영향을 받아 관계의 강도를 해석하기 어렵게 만듭니다.
  모호한 강도: 공분산은 변수들이 같은 방향으로 움직이는지 반대 방향으로 움직이는지를 보여줄 수 있지만, 그 관계가 얼마나 강한지는 나타내지 않습니다.


반면에, 상관관계는 공분산을 정규화하여 -1과 +1 사이의 무차원 척도를 제공합니다. 이 정규화는 상관관계가 관계의 방향과 강도를 평가할 수 있는 표준화된 지표를 제공함으로써 공분산의 한계를 해결합니다.

피어슨 상관계수

가장 널리 사용되는 상관 측정값은 Karl Pearson의 이름을 딴 피어슨 상관계수 (r)입니다. 이는 두 연속 변수 간의 선형 관계를 평가합니다.

피어슨 상관계수의 속성


  범위: \( r \)의 값은 -1과 +1 사이에 있습니다.
    
      \( r = +1 \): 완벽한 양의 선형 관계.
      \( r = -1 \): 완벽한 음의 선형 관계.
      \( r = 0 \): 선형 관계 없음.
    
  
  방향:
    
      양의 상관관계: 한 변수가 증가할 때 다른 변수도 증가합니다.
      음의 상관관계: 한 변수가 증가할 때 다른 변수는 감소합니다.
    
  
  강도:
    
      |r| = 1: 강한 관계.
      |r| = 0.5: 중간 정도의 관계.
      |r| = 0.3: 약한 관계.
      |r| = 0: 관계 없음.
    
  


피어슨 상관관계 계산

피어슨 상관계수는 다음 공식을 사용하여 계산됩니다:

\[
r = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}
\]

여기서:


  Cov(X, Y): 변수 X와 Y 간의 공분산.
  \( \sigma_X \): X의 표준편차.
  \( \sigma_Y \): Y의 표준편차.


이 공식은 공분산을 표준편차의 곱으로 정규화하여, 변수들의 원래 스케일에 관계없이 상관계수가 -1과 +1 사이에 유지되도록 합니다.

예제: 와인의 잔류 당과 품질

다양한 와인 샘플에서 잔류 당과 품질을 분석하는 데이터셋을 고려해보겠습니다. 상관관계를 어떻게 해석할 수 있는지 살펴보겠습니다:

양의 상관관계 (\( r = +0.96 \)): 높은 잔류 당이 높은 품질과 강한 양의 관계가 있음을 나타냅니다.


그림: 잔류 당과 품질 간의 양의 상관관계

음의 상관관계 (\( r = -0.99 \)): 높은 잔류 당이 낮은 품질과 강한 음의 관계가 있음을 시사합니다.


그림: 잔류 당과 품질 간의 음의 상관관계

이러한 예제는 상관관계가 데이터 내의 기본 패턴과 관계를 이해하는 데 어떻게 도움이 되며, 의사 결정 및 예측 모델링을 안내하는지 보여줍니다.

상관관계가 중요한 이유

상관관계를 이해하는 것은 여러 가지 이유로 기본적입니다:


  관계 식별: 변수 쌍이 관련되어 있는지, 그리고 얼마나 강하게 관련되어 있는지를 결정합니다.
  예측 모델링: 회귀 모델과 기타 예측 분석 도구를 구축하는 기반이 됩니다.
  데이터 축소: 중복 변수를 식별하는 데 도움을 주어 차원 축소를 가능하게 합니다.
  리스크 관리: 금융에서는 자산 상관관계를 이해하는 것이 포트폴리오 다양화 및 리스크 평가에 도움을 줍니다.


상관관계 계산을 위한 도구 및 라이브러리

피어슨 상관계수를 수동으로 계산하는 것은 교육적이지만, 실제로는 다양한 도구와 라이브러리가 이 과정을 단순화합니다:


  파이썬 라이브러리:
    
      Pandas: 



		
		
			
			
Java
			
			DataFrame.corr()
			
				
					
				
					1
				
						DataFrame.corr()
					
				
			
		

을 사용하여 쌍별 상관관계를 계산합니다.
      NumPy: 



		
		
			
			
Java
			
			numpy.corrcoef()
			
				
					
				
					1
				
						numpy.corrcoef()
					
				
			
		

를 활용하여 상관 행렬을 생성합니다.
      SciPy: 



		
		
			
			
Java
			
			scipy.stats.pearsonr()
			
				
					
				
					1
				
						scipy.stats.pearsonr()
					
				
			
		

를 이용하여 피어슨 상관관계와 p-값을 계산합니다.
    
  
  웹 애플리케이션:
    
      다양한 온라인 상관관계 계산기는 사용자가 데이터셋을 입력하고 코딩 없이도 상관계수를 즉시 계산할 수 있게 해줍니다.
    
  






		
		
			
			
Java
			
			import pandas as pd

df = pd.read_csv('wine_data.csv')
correlation_matrix = df[['quality', 'residual_sugar']].corr()
print(correlation_matrix)
			
				
					
				
					1
2
3
4
5
				
						import pandas as pd
 
df = pd.read_csv('wine_data.csv')
correlation_matrix = df[['quality', 'residual_sugar']].corr()
print(correlation_matrix)
					
				
			
		




그림: 온라인 상관관계 계산기 인터페이스

상관관계 결과 해석

데이터의 맥락 내에서 상관계수를 해석하는 것이 중요합니다:


  강도 대 유의성: 높은 상관계수가 인과관계를 의미하지는 않습니다. 인과관계를 추론하려면 다른 통계적 테스트와 도메인 지식이 필요합니다.
  이상치의 영향: 극단적인 값은 상관계수를 왜곡시켜 오해의 소지가 있는 해석을 초래할 수 있습니다.
  비선형 관계: 피어슨 상관계수는 선형 관계를 측정합니다. 비선형 연관성은 스피어만의 순위 상관관계와 같은 다른 지표가 필요할 수 있습니다.


결론

상관관계는 변수 간의 관계에 대한 귀중한 통찰을 제공하는 강력한 통계 도구입니다. 상관계수를 이해하고 올바르게 해석함으로써 데이터 전문가들은 정보에 입각한 의사 결정을 내리고, 강력한 모델을 구축하며, 데이터 내의 숨겨진 패턴을 발견할 수 있습니다. 잔류 당을 기반으로 와인의 품질을 분석하든 시장 동향을 평가하든, 상관관계를 숙달하는 것은 복잡한 데이터 분석 세계를 효과적으로 탐색할 수 있는 능력을 갖추게 해줍니다.



통계 분석 및 데이터 과학에 대한 보다 상세한 튜토리얼과 리소스를 보려면 데이터 분석 허브를 탐색하세요.