1 정규분포
정규분포는 연속확률 분포 중 하나이다. 사람의 키나 몸무게 등이 정규분포를 따르며 거의 웬만한 자료들이 정규분포를 따른다.
정규분포는 평균과 표준편차를 알면 그릴 수 있는데 평균($\mu$)은 정규분포의 중앙을 의미하고 표준편차($\sigma$)는 얼마나 자료가 펴져있나를 의미한다.
2 표준정규분포
표준정규분포는 정규분포에서 평균이 0이고, 표준편차가 1일 때를 의미한다. 이 것만으로 의미가 있지는 않고 정규화를 통해 의미를 가진다.
3 정규화
정규화는 기존 정규분포를 표준정규분포로 바꾸는 것을 의미한다. 정규화를 하는 방법은 정규분포를 따르는 모든 자료에 평균을 빼고 표준편차로 나누면 된다.
이렇게 바꿈으로써 서로 다른 평균과 표준편차를 가지던 데이터를 직접 비교할 수 있게된다. 그리고 데이터 과학 분야에서는 이상치 제거를 위해 쓰이기도 한다.
사용한 코드
import matplotlib.pyplot as plt
from scipy.stats import norm
import numpy as np
n = 20
x = np.linspace(-n,n,1000)
plt.xlim(-n, n)
plt.plot(x, norm.pdf(x, loc=3, scale=5))
plt.plot(x, norm.pdf(x, loc=-3, scale=12))
plt.legend([r"$\mu = 3, \sigma = 5$", r"$\mu = -3, \sigma = 12$"])
plt.title('Standard normal distribution')
'수학 > 통계학' 카테고리의 다른 글
[통계학] 베이즈 정리 (0) | 2024.06.12 |
---|---|
[통계학] 공분산과 상관계수 (0) | 2024.04.15 |