수학/통계학

[통계학] 공분산과 상관계수

100050 2024. 4. 15. 11:08

1 공분산

 공분산은 두 변수가 선형적인 관계를 가지는가에 대한 지표이다. 

 

$$COV(X, Y) = E[(X-E[X])(Y-E[Y])]$$

 

 E는 평균을 뜻하고 COV는 공분산을 뜻한다. 식을 보면 알겠지만 분산이랑 비슷한 식인 것을 알 수 있다. 공분산은 COV의 절댓값이 크면 클수록 선형적인 관계를 가지고, 0에 가까울수록 어떤 선형적인 관계도 가지지 않는다. 또한 공분산이 0보다 크다면 우상향하는 그래프이고 0보다 작다면 우하향하는 그래프가 나온다.

2 상관계수

 상관계수는 공분산을 정규화한 것이다. 그래서 공분산과 똑같은 특징을 가지는데 상관계수의 절댓값이 1보다 커지지 않으므로 1에 가까울수록 선형적인 관계를 가지고, 0에 가까울수록 선형적인 관계를 가지지 않는다라고 말할 수 있겠다. 그리고 보통 0.5 이상이면 선형적인 관계가 있다고 한다. 공분산에 X와 Y의 표준편차를 나누어 구한다.

 

$$r = \frac{COV(X,Y)}{\sigma_X \sigma_Y}$$

 

$\sigma_X$는 X의 표준편차를 뜻한다.

 

 이런 공분산과 상관계수에도 문제가 하나있는데, 선형적인 관계밖에 판단하지 못한다. 예를 들어 $y=x^2$같은 관계를 가지는 x, y에 대해서는 선형적인 관계가 아니기 때문에 공분산과 상관계수로는 아무런 관계가 없다고 나온다. 그러니 이런 경우를 대비해서 보통 그래프와 같이 본다.

3  분포에 따른 상관계수

r = 0.8962899802271831

 

r =  0.3886968495547374

 

r =  -0.8962899802271831
r =  -0.02523350639446731


참고자료

https://en.wikipedia.org/wiki/Covariance / 위키피디아

https://en.wikipedia.org/wiki/Correlation / 위키피디아

'수학 > 통계학' 카테고리의 다른 글

[통계학] 베이즈 정리  (0) 2024.06.12
[통계학] 정규분포 (가우시안분포)  (0) 2024.05.21