고3 때 했던 논문리뷰용어사전 attention: 문맥에 따라 집중할 단어를 결정하는 방식, 행렬곱을 이용해 구현한다. self-attention: 한 문장이 있을 때 문장에서 각 단어들의 관계를 찾는 방법 transformer: attention 기법만을 적극적으로 활용하여 만든 모델 softmax: 입력받은 값을 모두 0~1사이의 값으로 정규화하면서 값들의 총합이 1이 되도록 만드는 함수, 확률을 구하는 함수이기도 하다. mask: 참조하고 싶지 않은 단어는 미리 지워두는 함수, 지금 해석되지 않은 단어를 미리 참조할 필요는 없기에 사용된다. 해석할 필요없는 단어에 -에 해당하는 값을 넣어 구현한다. embedding: 특정 단어나 문장을 벡터로 만든 것, 컴퓨터의 경우는 자연어를 이해할 ..