인공지능/데이터 전처리 2

[데이터 전처리] 이상치 처리 (통계적 방법)

1 z-score   z-score는 기존 분포를 표준정규분포를 따르도록 바꾼 후에 신뢰구간 바깥의 데이터는 이상치로 판별하는 방식이다. 신뢰구간이 99%인 경우에는 평균에서 3*표준 편차만큼 떨어진 구간까지 정상값이라고 생각하고 신뢰구간 95%는 평균에서 2*표준 편차만큼 떨어진 구간까지 정상값이라고 생각한다.  간단한 방법이고 편리하지만 자료의 분포가 정규분포를 따른다는 가정하에 쓰는 방법이기에 자료가 정규분포를 가질 때만 제대로 사용할 수 있다.2 IQRIQR은 사분위수를 이용해서 중앙값을 탐지하게 된다.  IQR은 3사분위수에서 1사분위수을 뺀 값이고,  3사분위수+1.5*IQR~1사분위수-1.5*IQR 사이를 제외한 값을 이상치라고 판별한다. 3 주의점 이상치를 처리하면 좋지만 만약 가진 자료가..

[데이터 전처리] 정규화(Normalization)

1 정규화(Normalization) 정규화란 위키피디아에서 무언가를 더 정상적이거나 규칙적으로 만드는 프로세스를 의미합니다라고 한다. 여러가지 방법들이 있는데 min-max scaling이나 표준화같은 것이 있다. 또 머신러닝쪽으로 가면 L2 정규화 같은 것도 있다. 2 표준화(Stadardization) 표준화는 표준정규분포를 따르도록 분포를 바꾸는 것이다. 표준정규 분포는 평균이 0이고, 표준편차가 0이므로 본래 분포의 각 값에서 평균을 빼고 표준편차로 나누면 표준화가 된다. $$\frac{x-\mu}{\sigma}$$ $\mu$는 평균, $\sigma$는 표준편차 3 min-max scaling min-max 스케일링은 값을 분포의 최솟값으로 빼고, 분포의 최댓값과 최솟값의 차로 나눈다. 이러하여..