1 공분산
공분산은 두 변수가 선형적인 관계를 가지는가에 대한 지표이다.
$$COV(X, Y) = E[(X-E[X])(Y-E[Y])]$$
E는 평균을 뜻하고 COV는 공분산을 뜻한다. 식을 보면 알겠지만 분산이랑 비슷한 식인 것을 알 수 있다. 공분산은 COV의 절댓값이 크면 클수록 선형적인 관계를 가지고, 0에 가까울수록 어떤 선형적인 관계도 가지지 않는다. 또한 공분산이 0보다 크다면 우상향하는 그래프이고 0보다 작다면 우하향하는 그래프가 나온다.
2 상관계수
상관계수는 공분산을 정규화한 것이다. 그래서 공분산과 똑같은 특징을 가지는데 상관계수의 절댓값이 1보다 커지지 않으므로 1에 가까울수록 선형적인 관계를 가지고, 0에 가까울수록 선형적인 관계를 가지지 않는다라고 말할 수 있겠다. 그리고 보통 0.5 이상이면 선형적인 관계가 있다고 한다. 공분산에 X와 Y의 표준편차를 나누어 구한다.
$$r = \frac{COV(X,Y)}{\sigma_X \sigma_Y}$$
$\sigma_X$는 X의 표준편차를 뜻한다.
이런 공분산과 상관계수에도 문제가 하나있는데, 선형적인 관계밖에 판단하지 못한다. 예를 들어 $y=x^2$같은 관계를 가지는 x, y에 대해서는 선형적인 관계가 아니기 때문에 공분산과 상관계수로는 아무런 관계가 없다고 나온다. 그러니 이런 경우를 대비해서 보통 그래프와 같이 본다.
3 분포에 따른 상관계수
참고자료
'수학 > 통계학' 카테고리의 다른 글
[통계학] 베이즈 정리 (0) | 2024.06.12 |
---|---|
[통계학] 정규분포 (가우시안분포) (0) | 2024.05.21 |