인공지능 4

[데이터 전처리] 이상치 처리 (통계적 방법)

1 z-score   z-score는 기존 분포를 표준정규분포를 따르도록 바꾼 후에 신뢰구간 바깥의 데이터는 이상치로 판별하는 방식이다. 신뢰구간이 99%인 경우에는 평균에서 3*표준 편차만큼 떨어진 구간까지 정상값이라고 생각하고 신뢰구간 95%는 평균에서 2*표준 편차만큼 떨어진 구간까지 정상값이라고 생각한다.  간단한 방법이고 편리하지만 자료의 분포가 정규분포를 따른다는 가정하에 쓰는 방법이기에 자료가 정규분포를 가질 때만 제대로 사용할 수 있다.2 IQRIQR은 사분위수를 이용해서 중앙값을 탐지하게 된다.  IQR은 3사분위수에서 1사분위수을 뺀 값이고,  3사분위수+1.5*IQR~1사분위수-1.5*IQR 사이를 제외한 값을 이상치라고 판별한다. 3 주의점 이상치를 처리하면 좋지만 만약 가진 자료가..

[데이터 전처리] 정규화(Normalization)

1 정규화(Normalization) 정규화란 위키피디아에서 무언가를 더 정상적이거나 규칙적으로 만드는 프로세스를 의미합니다라고 한다. 여러가지 방법들이 있는데 min-max scaling이나 표준화같은 것이 있다. 또 머신러닝쪽으로 가면 L2 정규화 같은 것도 있다. 2 표준화(Stadardization) 표준화는 표준정규분포를 따르도록 분포를 바꾸는 것이다. 표준정규 분포는 평균이 0이고, 표준편차가 0이므로 본래 분포의 각 값에서 평균을 빼고 표준편차로 나누면 표준화가 된다. $$\frac{x-\mu}{\sigma}$$ $\mu$는 평균, $\sigma$는 표준편차 3 min-max scaling min-max 스케일링은 값을 분포의 최솟값으로 빼고, 분포의 최댓값과 최솟값의 차로 나눈다. 이러하여..

[자연어 처리] TF-IDF

유사도를 먼저 보고 오면 좋다. 1 TF TF는 특정 문서(d)에서의 단어(t)의 빈도이다. 한 문서에서 단어의 중요도를 나타낸다고 보면 된다. $$TF(d, t) = d에서의 t의 갯수$$ 2 IDF IDF는 총 문서의 수를 특정 단어(t)가 등장한 문서의 수(n)로 나눈 값이다. 실제로 사용할 때는 총 문서의 수가 많기 때문에 분모에 1을 더하고 식 전체에 log를 사용하여 값의 크기를 줄인다. 분모에 1을 더하는 이유는 분모가 0이 되는 경우를 방지하기 위해서이다. 그리고 보통 log의 밑으로는 e를 사용한다. IDF는 너무 많이 등장하는 단어의 중요도를 낮추기 위해서 사용된다. $$IDF(n, t) = \frac{n}{t가 등장한 문서의 수}$$ $$IDF(n, t) = \log\frac{n}{1..

인공지능/nlp 2024.04.10

[자연어 처리]유사도

1 코사인 유사도 코사인 유사도는 두 벡터가 얼마나 비슷하냐를 알기 위해 사용된다. 벡터 a, b가 있을 때 a와 b의 내적을 a의 놈과 b의 놈을 곱한 값으로 나누어 계산한다. 기존의 내적을 구할 때 쓰는 공식에서 a의 놈과 b의 놈을 우측으로 옮긴 것이다. $$a \cdot b = \parallel a \parallel \parallel b \parallel \cos(\theta)$$ $$ \cos(\theta) = \frac{a \cdot b}{ \parallel a \parallel \parallel b \parallel}$$ 내적과 놈(Norm) $$a \cdot b = \sum_{k=1}^N a_k \cdot b_k $$ $$\parallel a \parallel = \sqrt{\sum_{k=..

인공지능/nlp 2024.03.30