S18L02 – 공분산

html
분산, 공분산 및 상관관계 이해하기: 포괄적인 가이드

목차

소개
분산: 데이터 분산 측정
공분산: 공동 변동성 이해
상관관계: 관계의 강도 측정
실용적 예시: 와인의 잔류 당도 대 품질
양의 기울기와 음의 기울기: 관계 해석
분산, 공분산 및 상관관계 계산
결론


소개
데이터셋을 분석할 때, 각 변수의 개별적인 특성뿐만 아니라 변수들이 어떻게 상호 작용하는지도 이해하는 것이 중요합니다. 분산은 단일 변수가 평균으로부터 얼마나 벗어나는지를 측정하고, 공분산과 상관관계는 두 변수가 함께 어떻게 변하는지를 평가합니다. 이러한 개념을 숙달하면 데이터 해석의 정확성을 높이고 정보에 기반한 의사 결정을 내릴 수 있습니다.

분산: 데이터 분산 측정
분산은 데이터 집합 내의 각 데이터 포인트가 데이터셋의 평균(산술 평균)으로부터 얼마나 다른지를 정량화합니다. 이는 데이터의 분포 또는 산포에 대한 통찰을 제공합니다.

분산의 공식
관측값 \( n \)개가 있는 데이터셋의 분산 (\( \sigma^2 \))는 다음과 같이 계산됩니다:




		
		
			
			
Java
			
			\[
\sigma^2 = \frac{\sum_{i=1}^{n} (X_i - \mu)^2}{n - 1}
\]
			
				
					
				
					1
2
3
				
						\[
\sigma^2 = \frac{\sum_{i=1}^{n} (X_i - \mu)^2}{n - 1}
\]
					
				
			
		



\( X_i \): 각각의 개별 데이터 포인트
\( \mu \): 데이터셋의 평균
\( n \): 관측값의 수


예제 계산
특정 와인 브랜드의 품질 점수를 나타내는 다음의 데이터셋을 고려해 봅시다:


관측
품질 점수 (\( X \))


1
50


2
100


3
200


4
250


5
300


6
400




평균 계산 (\( \mu \)):





		
		
			
			
Java
			
			\[
\mu = \frac{50 + 100 + 200 + 250 + 300 + 400}{6} = \frac{1300}{6} \approx 216.67
\]
			
				
					
				
					1
2
3
				
						\[
\mu = \frac{50 + 100 + 200 + 250 + 300 + 400}{6} = \frac{1300}{6} \approx 216.67
\]
					
				
			
		




평균으로부터의 편차를 계산하고 제곱하기:



\( X_i \)
\( X_i - \mu \)
\( (X_i - \mu)^2 \)


50
-166.67
27,778


100
-116.67
13,611


200
-16.67
278


250
33.33
1,111


300
83.33
6,944


400
183.33
33,611




편차 제곱의 합:





		
		
			
			
Java
			
			\[
\sum (X_i - \mu)^2 = 27,778 + 13,611 + 278 + 1,111 + 6,944 + 33,611 = 82,233
\]
			
				
					
				
					1
2
3
				
						\[
\sum (X_i - \mu)^2 = 27,778 + 13,611 + 278 + 1,111 + 6,944 + 33,611 = 82,233
\]
					
				
			
		




분산 계산:





		
		
			
			
Java
			
			\[
\sigma^2 = \frac{82,233}{6 - 1} = \frac{82,233}{5} = 16,446.6
\]
			
				
					
				
					1
2
3
				
						\[
\sigma^2 = \frac{82,233}{6 - 1} = \frac{82,233}{5} = 16,446.6
\]
					
				
			
		


해석: 높은 분산은 품질 점수의 산포가 크다는 것을 나타내며, 이는 점수들이 더 넓은 범위에 걸쳐 분포되어 있음을 의미합니다.

공분산: 공동 변동성 이해
공분산은 두 변수 간의 방향 관계를 측정합니다. 이는 한 변수의 증가가 다른 변수의 증가(양의 공분산) 또는 감소(음의 공분산)와 관련이 있는지를 나타냅니다.

공분산의 공식
각각 \( n \)개의 관측값을 가진 두 변수 \( X \)와 \( Y \)에 대해, 공분산 (\( \text{Cov}(X,Y) \))은 다음과 같이 계산됩니다:




		
		
			
			
Java
			
			\[
\text{Cov}(X,Y) = \frac{\sum_{i=1}^{n} (X_i - \mu_X)(Y_i - \mu_Y)}{n - 1}
\]
			
				
					
				
					1
2
3
				
						\[
\text{Cov}(X,Y) = \frac{\sum_{i=1}^{n} (X_i - \mu_X)(Y_i - \mu_Y)}{n - 1}
\]
					
				
			
		



\( \mu_X \), \( \mu_Y \): 각각 변수 \( X \)와 \( Y \)의 평균


양의 공분산 vs. 음의 공분산

양의 공분산: \( X \)가 증가할 때 \( Y \)도 증가하는 경향이 있음을 나타냅니다.
음의 공분산: \( X \)가 증가할 때 \( Y \)는 감소하는 경향이 있음을 시사합니다.


예제 계산
이전 데이터셋을 사용하여, 같은 와인 브랜드의 잔류 당도 수준이 다음과 같다고 가정해 봅시다:


관측
잔류 당도 (\( Y \))


1
3


2
4


3
5


4
6


5
7


6
8




평균 계산:

- \( X \)의 평균 (품질 점수):




		
		
			
			
Java
			
			\[
\mu_X \approx 216.67
\]
			
				
					
				
					1
2
3
				
						\[
\mu_X \approx 216.67
\]
					
				
			
		


- \( Y \)의 평균 (잔류 당도):




		
		
			
			
Java
			
			\[
\mu_Y = \frac{3 + 4 + 5 + 6 + 7 + 8}{6} = \frac{33}{6} = 5.5
\]
			
				
					
				
					1
2
3
				
						\[
\mu_Y = \frac{3 + 4 + 5 + 6 + 7 + 8}{6} = \frac{33}{6} = 5.5
\]
					
				
			
		




각 편차의 곱 계산:



관측
\( X_i - \mu_X \)
\( Y_i - \mu_Y \)
\( (X_i - \mu_X)(Y_i - \mu_Y) \)


1
-166.67
-2.5
416.675


2
-116.67
-1.5
175.005


3
-16.67
-0.5
8.335


4
33.33
0.5
16.665


5
83.33
1.5
124.995


6
183.33
2.5
458.325




곱의 합:





		
		
			
			
Java
			
			\[
\sum (X_i - \mu_X)(Y_i - \mu_Y) = 416.675 + 175.005 + 8.335 + 16.665 + 124.995 + 458.325 = 1,199.975
\]
			
				
					
				
					1
2
3
				
						\[
\sum (X_i - \mu_X)(Y_i - \mu_Y) = 416.675 + 175.005 + 8.335 + 16.665 + 124.995 + 458.325 = 1,199.975
\]
					
				
			
		




공분산 계산:





		
		
			
			
Java
			
			\[
\text{Cov}(X,Y) = \frac{1,199.975}{6 - 1} = \frac{1,199.975}{5} = 239.995
\]
			
				
					
				
					1
2
3
				
						\[
\text{Cov}(X,Y) = \frac{1,199.975}{6 - 1} = \frac{1,199.975}{5} = 239.995
\]
					
				
			
		


해석: 약 240의 양의 공분산은 잔류 당도와 품질 간에 양의 관계가 있음을 나타냅니다. 잔류 당도가 증가함에 따라 품질 점수도 증가하는 경향이 있습니다.

상관관계: 관계의 강도 측정
공분산이 관계의 방향을 나타내는 반면, 상관관계는 두 변수 간의 관계의 강도와 방향을 모두 정량화합니다. 공분산과 달리 상관관계는 표준화되어 있어, 서로 다른 데이터셋 간에도 해석 및 비교가 용이합니다.

상관관계의 공식
피어슨 상관 계수 (\( r \))는 다음과 같이 계산됩니다:




		
		
			
			
Java
			
			\[
r = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}
\]
			
				
					
				
					1
2
3
				
						\[
r = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}
\]
					
				
			
		



\( \text{Cov}(X,Y) \): \( X \)와 \( Y \)의 공분산
\( \sigma_X \), \( \sigma_Y \): 각각 \( X \)와 \( Y \)의 표준 편차


상관관계 값의 해석

\( r = 1 \): 완벽한 양의 상관관계
\( r = -1 \): 완벽한 음의 상관관계
\( r = 0 \): 상관관계 없음
\( 0 < |r| < 1 \): 다양한 정도의 양의 또는 음의 상관관계


예제 계산
이전 공분산 값 (\( \text{Cov}(X,Y) = 240 \))과 \( X \)의 분산 (\( \sigma_X^2 = 16,446.6 \))을 사용하여 표준 편차를 계산해 봅시다:


\( X \)의 표준 편차:





		
		
			
			
Java
			
			\[
\sigma_X = \sqrt{16,446.6} \approx 128.22
\]
			
				
					
				
					1
2
3
				
						\[
\sigma_X = \sqrt{16,446.6} \approx 128.22
\]
					
				
			
		




\( Y \)의 분산:

잔류 당도의 분산을 계산합니다:




		
		
			
			
Java
			
			\[
\sigma_Y^2 = \frac{\sum (Y_i - \mu_Y)^2}{n - 1} = \frac{(-2.5)^2 + (-1.5)^2 + (-0.5)^2 + 0.5^2 + 1.5^2 + 2.5^2}{5} = \frac{6.25 + 2.25 + 0.25 + 0.25 + 2.25 + 6.25}{5} = \frac{17.5}{5} = 3.5
\]
\]
			
				
					
				
					1
2
3
4
				
						\[
\sigma_Y^2 = \frac{\sum (Y_i - \mu_Y)^2}{n - 1} = \frac{(-2.5)^2 + (-1.5)^2 + (-0.5)^2 + 0.5^2 + 1.5^2 + 2.5^2}{5} = \frac{6.25 + 2.25 + 0.25 + 0.25 + 2.25 + 6.25}{5} = \frac{17.5}{5} = 3.5
\]
\]
					
				
			
		




\( Y \)의 표준 편차:





		
		
			
			
Java
			
			\[
\sigma_Y = \sqrt{3.5} \approx 1.87
\]
			
				
					
				
					1
2
3
				
						\[
\sigma_Y = \sqrt{3.5} \approx 1.87
\]
					
				
			
		




상관관계 계산:





		
		
			
			
Java
			
			\[
r = \frac{240}{128.22 \times 1.87} \approx \frac{240}{239.73} \approx 1.002
\]
			
				
					
				
					1
2
3
				
						\[
r = \frac{240}{128.22 \times 1.87} \approx \frac{240}{239.73} \approx 1.002
\]
					
				
			
		


주의: 중간 단계에서의 반올림 오류로 인해 계산된 상관관계가 1을 약간 초과했습니다. 실제로 상관 계수는 -1과 1 사이의 값을 가집니다.
해석: 1에 가까운 상관 계수는 잔류 당도와 품질 간에 매우 강한 양의 관계가 있음을 나타내며, 이전에 관찰된 양의 공분산을 강화시킵니다.

실용적 예시: 와인의 잔류 당도 대 품질
잔류 당도와 와인 품질 간의 관계에 초점을 맞춘 실용적인 예시를 통해 우리의 이해를 종합해 보겠습니다.

데이터셋 개요


관측
잔류 당도 (\( Y \))
품질 점수 (\( X \))


1
3
50


2
4
100


3
5
200


4
6
250


5
7
300


6
8
400



관계 분석 단계

평균 계산:





		
		
			
			
Java
			
			\[
\mu_X \approx 216.67
\]
\[
\mu_Y = 5.5
\]
			
				
					
				
					1
2
3
4
5
6
				
						\[
\mu_X \approx 216.67
\]
\[
\mu_Y = 5.5
\]
					
				
			
		




편차와 곱 계산:

- 앞서 보여진 바와 같이, 편차의 곱을 합산하여 공분산을 찾습니다.


공분산 및 상관관계 결정:

- 공분산 \( \approx 240 \)
- 상관관계 \( \approx 1.002 \)

해석
양의 공분산과 높은 상관 계수는 잔류 당도와 품질 점수 간에 강한 양의 관계가 있음을 나타냅니다. 이는 이 데이터셋에서 잔류 당도가 증가함에 따라 와인의 품질 점수도 증가하는 경향이 있음을 시사합니다.
주의사항: 상관관계가 강한 관계를 나타내지만, 이는 인과관계를 의미하지 않습니다. 다른 요인이 잔류 당도와 품질 점수에 모두 영향을 미칠 수 있습니다.

양의 기울기와 음의 기울기: 관계 해석
변수 간 관계의 방향을 이해하는 것은 정확한 데이터 해석에 매우 중요합니다.

양의 기울기
양의 기울기는 한 변수가 증가할 때 다른 변수도 함께 증가함을 의미합니다. 이는 잔류 당도와 품질 점수가 같은 방향으로 움직이는 실용적 예시에서 분명하게 나타납니다.

음의 기울기
음의 기울기는 한 변수가 증가할 때 다른 변수가 감소함을 나타냅니다. 예를 들어, 제품의 가격과 수요 간의 관계를 분석할 때, 부정적인 상관관계는 높은 가격이 낮은 수요로 이어질 수 있음을 시사할 수 있습니다.

시각적 표현
적합된 회귀선이 있는 산점도를 작성하면 이러한 관계를 시각적으로 파악할 수 있습니다. 양의 기울기는 위로 향하는 경향이 있고, 음의 기울기는 아래로 향하는 경향이 있습니다.

분산, 공분산 및 상관관계 계산
데이터셋을 사용하여 계산을 단계별로 살펴보겠습니다.

1단계: 평균 계산




		
		
			
			
Java
			
			\[
\mu_X = \frac{50 + 100 + 200 + 250 + 300 + 400}{6} \approx 216.67
\]
\[
\mu_Y = \frac{3 + 4 + 5 + 6 + 7 + 8}{6} = 5.5
\]
			
				
					
				
					1
2
3
4
5
6
				
						\[
\mu_X = \frac{50 + 100 + 200 + 250 + 300 + 400}{6} \approx 216.67
\]
\[
\mu_Y = \frac{3 + 4 + 5 + 6 + 7 + 8}{6} = 5.5
\]
					
				
			
		



2단계: 편차와 곱 계산


\( X_i \)
\( Y_i \)
\( X_i - \mu_X \)
\( Y_i - \mu_Y \)
\((X_i - \mu_X)(Y_i - \mu_Y)\)


50
3
-166.67
-2.5
416.675


100
4
-116.67
-1.5
175.005


200
5
-16.67
-0.5
8.335


250
6
33.33
0.5
16.665


300
7
83.33
1.5
124.995


400
8
183.33
2.5
458.325


곱의 합: \( \sum (X_i - \mu_X)(Y_i - \mu_Y) = 1,199.975 \)

3단계: 공분산 계산




		
		
			
			
Java
			
			\[
\text{Cov}(X,Y) = \frac{1,199.975}{5} = 239.995 \approx 240
\]
			
				
					
				
					1
2
3
				
						\[
\text{Cov}(X,Y) = \frac{1,199.975}{5} = 239.995 \approx 240
\]
					
				
			
		



4단계: 표준 편차 계산

\( X \)의 표준 편차:




		
		
			
			
Java
			
			\[
\sigma_X = \sqrt{16,446.6} \approx 128.22
\]
			
				
					
				
					1
2
3
				
						\[
\sigma_X = \sqrt{16,446.6} \approx 128.22
\]
					
				
			
		



\( Y \)의 표준 편차:




		
		
			
			
Java
			
			\[
\sigma_Y = \sqrt{3.5} \approx 1.87
\]
			
				
					
				
					1
2
3
				
						\[
\sigma_Y = \sqrt{3.5} \approx 1.87
\]
					
				
			
		





5단계: 상관관계 계산




		
		
			
			
Java
			
			\[
r = \frac{240}{128.22 \times 1.87} \approx 1.002
\]
\]
			
				
					
				
					1
2
3
4
				
						\[
r = \frac{240}{128.22 \times 1.87} \approx 1.002
\]
\]
					
				
			
		


주의: 계산의 정밀도를 확보하여 상관관계 값의 불일치를 방지하세요.

결론
분산, 공분산 및 상관관계는 분석가들이 데이터 분포와 변수 간의 관계를 종합적으로 이해할 수 있게 해주는 기본적인 통계 측정 도구입니다. 이러한 개념을 숙달함으로써 의미 있는 패턴을 발견하고, 정보에 기반한 의사 결정을 내리며, 다양한 분야에서 전략적 이니셔티브를 추진할 수 있습니다.
데이터 과학, 금융, 마케팅 또는 데이터 기반 인사이트에 의존하는 모든 분야에서 이러한 통계 도구를 이해하는 것은 필수적입니다. 통계 측정치는 유용한 정보를 제공하지만, 항상 더 넓은 맥락과 다른 영향을 미치는 요인을 고려하여 정확하고 실행 가능한 해석을 보장해야 합니다.



키워드: 분산, 공분산, 상관관계, 데이터 분석, 통계 측정, 잔류 당도, 와인 품질, 양의 기울기, 음의 기울기, 피어슨 상관 계수, 데이터 분산, 공동 변동성, 변수 간 관계
\( X_i \)	\( X_i - \mu \)	\( (X_i - \mu)^2 \)
50	-166.67	27,778
100	-116.67	13,611
200	-16.67	278
250	33.33	1,111
300	83.33	6,944
400	183.33	33,611
관측	\( X_i - \mu_X \)	\( Y_i - \mu_Y \)	\( (X_i - \mu_X)(Y_i - \mu_Y) \)
1	-166.67	-2.5	416.675
2	-116.67	-1.5	175.005
3	-16.67	-0.5	8.335
4	33.33	0.5	16.665
5	83.33	1.5	124.995
6	183.33	2.5	458.325